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出版说明 


由香港科技大学社会科学部吴晓刚教授主编的“格致方 
法 • 定量研究系列”丛书，精选了世界著名的 SAGE 出版社 
定量社会科学研究丛书中的35种，翻译成中文，集结成八 
册，于2011年出版。这八册书分 别是： 《线性回归分析基 
础》、《高级回归分析》、《广义线性模型》、《纵贯数据分 析》、 
《因果关系模型》、《社会科学中的数理基础及应用》、《数据分 
析方法五种》和《列表数据分析》。这套丛书自出版以来，受 
到广大读者特别是年轻一代社会科学工作者的欢迎，他们针 
对丛书的内容和翻译都提出了很多中肯的建议。我们对此 
表示衷心的感谢。 

基于读者的热烈反馈，同时也为了向广大读者提供更多 
的方便和选择，我们将该丛书以单行本的形式再次出版发行。 
在此过程中，主编和译者对已出版的书做了必要的修订和校 
正，还新增加了两个品种。此外，曾东林、许多多、范新光、李 
忠路协助主编参加了校订。今后我们将继续与 SAGE 出版社 
合作，陆续推出新的品种。我们希望本丛书单行本的出版能 
为推动国内社会科学定量研究的教学和研究作出一点贡献。 




往事如烟，光阴如梭。转眼间，出国已然十年有余。 
1996年赴美留学，最初选择的主攻方向是比较历史社会学， 
研究的兴趣是中国的制度变迁问题。以我以前在国内所受 
的学术训练，基本是看不上定量研究的。一方面，我们倾向 
于研究大问题，不喜欢纠缠于细枝末节。国内一位老师的 
话给我的印象很深，大致是说 :如果 你看到一堵墙就要倒 
了，还用得着纠缠于那堵墙的倾斜角度究竟是几度吗？所 
以，很多研究都是大而化之，只要说得通即可。另一方面， 
国内（十年前）的统计教学，总的来说与社会研究中的实际 
问题是相脱节的。结果是，很多原先对定量研究感兴趣的 
学生在学完统计之后，依旧无从下手，逐渐失去了对定量研 
究的兴趣。 

我所就读的美国加州大学洛杉矶分校社会学系，在定量 
研究方面有着系统的博士训练课程。不论研究兴趣是定量 
还是定性的，所有的研究生第一年的头两个学期必须修两门 
中级统计课，最后一个学期的系列课程则是简单介绍线性回 
归以外的其他统计方法，是选修课。希望进一步学习定量研 
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究方法的可以在第二年修读另外一个三学期的系列课程，其 
中头两门课叫“调査数据分析”，第三门叫“研究设计”。除此 
以外，还有如“定类数据分析”、“人口学方法与技术”、“事件 
史分析”、“多层线性模型”等专门课程供学生选修。该学校 
的统计系、心理系、教育系、经济系也有一批蜚声国际的学 
者，提供不同的、更加专业化的课程供学生选修。2001年完 

成博士学业之后，我又受安德鲁 • 梅隆基金会资助，在世界 

- ■ -- 

定量社会科学研究的重镇密歇根大学从事两年的博士后研 
究，其间旁听谢宇教授为博士生讲授的统计课程，并参与该 

校社会研究院 （Institute for Social Research ) 定量社会研究方 
法项目的一些讨论会，受益良多。 

2003年，我赴港工作，在香港科技大学社会科学部，教授 
研究生的两门核心定量方法课程。香港科技大学社会科学 

部自创建以来，非常重视社会科学研究方法论的训练。我开 
设的第一门课“社会科学里的统计 _”（Statistics for Social 

Science ) 为所有研究型硕士生和博士生的必修课，而第二门 
课“社会科学中的定量分析”为博士生的必修课(事实上，大 
部分硕士生在修完第一门课后都会继续选修第二门课)。我 
在讲授这两门课的时候，根据社会科学研究生的数理基础比 
较薄弱的特点，尽量避免复杂的数学公式推导，而用具体的 
例子，结合语言和图形，帮助学生理解统计的基本概念和模 
型。课程的重点放在如何应用定量分析模型研究社会实际 
问题上，即社会研究者主要为定量统计方法的“消费者”而非 
“生产者”。作为“消费者”，学完这些课程后,我们一方面能 
够读懂、欣赏和评价别人在同行评议的刊物上发表的定量研 
究的文章;另一方面，也能在自己的研究中运用这些成熟的 



方法论技术。 

上述两门课的内容，尽管在线性回归模型的内容上有 
少量重复，但各有侧重。“社会科学里的统计学 ” (Statistics 
for Social Science ) 从介绍最基本的社会研究方法论和统计 

学原理开始，到多元线性回归模型结束，内容涵盖了描述性 
统计的基本方法、统计推论的原理、假设检验、列联表分析、 
方差和协方差分析、简单线性回归模型、多元线性回归模 
型，以及线性回归模型的假设和模型诊断。“社会科学中 
的定量分析”则介绍在经典线性回归模型的假设不成立的 
情况下的一些模型和方法，将重点放在因变量为定类数据 
的分析模型上，包括两分类的 logistic 回归模型、多分类 lo - 
gistic 回归模型、定序 logistic 回归模型、条件 logistic 回归模 

型、多维列联表的对数线性和对数乘积模型、有关删节数据 
的模型、纵贯数据的分析 模琿， 包括追踪研究和事件史的分 
析方法。这些模型在社会科学研究中有着更加广泛的 
应用。 

修读过这些课程的香港科技大学的研究生 ，一 直鼓励 
和支持我将两门课的讲稿结集出版，并帮助我将原来的英 
文课程讲稿译成了中文。但是，由于种种原因，这两本书拖 
了四年多还没有完成。世界著名的出版社 SAGE 的“定量 
社会科学研究”丛书闻名遐迩，每本书都写得通俗易懂。中 
山大学马骏教授向格致出版社何元龙社长推荐了这套书， 
当格致出版社向我提出从这套丛书中精选一批翻译，以獪 
中文读者时，我非常支持这个想法，因为这从某种程度上弥 
补了我的教科书未能出版的遗憾。 

翻译是一件吃力不讨好的事。不但要有对中英文两种 
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语言的精准把握能力，还要有对实质内容有较深的理解能 
力，而这套丛书涵盖的又恰恰是社会科学中技术性非常强 
的内容，只有语言能力是远远不能胜任的。在短短的一年 
时间里，我们组织了来自中国内地及港台地区的二十几位 
研究生参与了这项工程，他们目前大部分是香港科技大学 
的硕士和博士研究生，受过严格的社会科学统计方法的训 

练，也有来自美国等地对定量研究感兴趣的博士研究生。 

■-— ■ 

他 们是： 

香港科技大学社会科学部博士研究生蒋勤、李骏、盛智 
明、叶华、张卓妮、郑冰岛，硕士研究生贺光烨、李兰、林毓玲、 
肖东亮、辛济云、於嘉、余珊珊，应用社会经济研究中心研究 
员李俊秀;香港大学教育学院博士研究生洪 岩璧; 北京大学 
社会学系博士研究生李丁、赵 亮员； 中国人民大学人口学系 
讲师巫 锡炜; 中国台湾“中央”研究院社会学所助理研究员林 
宗弘;南京师范大学心理学系副教授 陈陈; 美国北卡罗来纳 
大学教堂山分校社会学系博士候选人姜念涛;美国加州大学 
洛杉矶分校社会学系博士研究生宋曦。 

关于每一位译者的学术背景，书中相关部分都有简单 
的介绍。尽管每本书因本身内容和译者的行文风格有所差 
异，校对也未免挂一漏万，术语的标准译法方面还有很大的 
改进空间，但所有的参与者都做了最大的努力，在繁忙的学 
习和研究之余，在不到一年的时间内，完成了三十五本书、 
超过百万字的翻译任务。李骏、叶华、张卓妮、贺光烨、宋 
曦、於嘉、郑冰岛和林宗弘除了承担自己的翻译任务之外, 
还在初稿校对方面付出了大量的劳动。香港科技大学霍英 
东南沙研究院的工作人员曾东林，协助我通读了全稿，在此 



我也致以诚挚的谢意。有些作者，如香港科技大学黄善国 
教授、美国约翰 • 霍普金斯大学郝令昕教授，也参与了审校 
工作。 

我们希望本丛书的出版，能为建设国内社会科学定量研 
究的扎实学风作岀一点贡献。 


吴晓刚 

于香港九龙清水湾 



在社会科学的数据分析中，回归可谓最常用的方法。通 
过计算机获得一个估计的回归方程就和数1、2、3 —样简 
单，事实的确如此，因为利用任何一个软件程序，研究者都可 
以按如下步骤 操作： （1) 加载样本数据； （2) 确定回归 方程; 
(3) 利用普通最小二乘法进行估计。这将获得一个类似下面 
这下等式的 结果： 

y = 62 + 71. 5 X x + 5. AX 2 +e 

但是,这个估计的结果如实反应了真实世界的状况吗? 
例如，在 X 2 保持不变的情况下，足 一 个单位的变化是否将 
导致 Y 产生5的预期变化？我们往往可以非常自信地谈 
论总体估计的精确度。但是，我们对回归结果的信任程度取 
决于是否能够成功地处理以下常见 问題: 多元共线性、奇异 
值、非正态、异方差性以及非线性。 

Fox 教授将“诊断”引申为发现上述问题。例如奇异观 
测值或更概括地讲，即强影响观测值产生的问题。除了那些 
可以展示某一极端值如何影响回归直线的常用图形外，他对 
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其他测量方法也进行了 阐释: 预测值、学生残差、 Cook 距离 
以及偏回归散点图。这些测量方法大多可以通过常用的软 
件程序获得，例如 SAS 或 SPSS 。 

在对回归进行了诊断之后， Fox 专注寻找可能的解决办 
法。此类问题非常多，例如，如果具有高度的共线性，这个变 
量需要被剔除出回归方程吗？如果有奇异值岀现，这个观测 

是否应该被舍弃？当误差的分布是偏斜的时候，是否应该对 

—■■— __ 

其进行一些变换？在异方差性存在的情况下，是否应该使用 
加权最小二乘法以解决这一问题？当非线性问题存在时，是 
否应该使用次方转换？在面对这些重要的问题时，应尽量避 
免使用机械的权宜方法。正如作者不断强调的，这些方法永 
远不能取代判别和思想。 

为了使解释更加丰富， Fox 利用了许多数据作为 例子: 
美国的人口普查、职业声望、人们报告的体重、加拿大公司中 
的董事会。这些例子使得本书中的诊断适用于广大的回归 
方法使用者。此外，有意愿受更高级训练的读者可以在附录 
中寻找答案（例如，对用于解决高度共线性的岭回归的评 
估）。每一个使用回归分析的人，理应进行一系列回归诊断。 


迈克尔 • S •刘易斯 - 贝克 


Copyright ® 1991 by SAGE Publications ， Inc. 

All rights reserved No part of this book may be reproduced or utilized in any 
form or by any means，electronic or mechanical, including photocopying, re¬ 
cording, or by any information storage and retrieval system, without permis¬ 
sion in writing from the publisher* 

This simplified Chinese edition for the People’s Republic of China is pub* 
lished by arrangement with SAGE Publications, Inc* ® SAGE Publications, 

Inc. TRUTH WISDOM PRESS 2012. 

本书版权归 SAGE Publications 所有。由 SAGE Publications 授权翻译出版。 
上海市版权局著作权合同登记号 : 图字 09-2009*547 ^ 
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囲归诊 賴筒 介 


在社会科学研究中，线性最小二乘回归分析可谓最含用 
的统计技术，并为许多其他的统计方法奠定了基础。但是， 
最小二乘回归往往面临许多困难，它对于数据结构有着较强 
且往往不切实际的假设。回归诊断是用于探索存在于回归 

分析中的问题及判断某些假设是否合理的一种技术。 

■ 

回归诊断在当代的发展与计算机交互式的统计分析的 
实现是不可分割的，因此，回归诊断在很大程度上是近20年 
的产物。与回归诊断方法紧密相关的是用于纠正已发现问 
题的各种技术，其中许多方法都涉及对数据的转换。 

作为一个初步的例子，我们首先考虑图 1. 1中来自 Ans - 
combe (1973) 的四幅散点图。统计分析的一个目的就在于为 
数据提供详尽的描述性归纳。 Anscombe 的四个数据集已被 
设计得出相同的标准线性回归结果 :斜率 、截距、相关系数、 
回归标准误、系数标准误以及统计检验。但非常重要的是， 
它们不具有相同的残差。 

在图 1.1( a ) 中，线性回归合理地描述了 ^随 T 的增长而 
增长这一趋势。在图 1 . 1( b ) 中，线性回归未能反映出数据具 
有的曲线形式，所以线性方程显然是错的。在图 1.1( c ) 中， 
某一点与其他点构成的直线偏离，这对拟合的回归直线产生 
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了很大的影响，而仅通过其他点的直线则将完美拟合。在理 
想的情况下，我们希望了解为什么最后一个观测值偏离了其 
他观测值。它可能确有特殊之处(例如它受到除工之外其他 
值的影响），或是体现了在数据记录过程中的误差。当然，我 
们在此只是设想，因为 Anscombe 的数据只是简单地构造出来 
的，但重点在于我们需要从实质上寻求解决异常值的方法。 
在图 1.1( d ) 中，若没有最后一个点，我们就不能拟合出直线。 
因此，我们至少应该对回归结果持有谨慎而怀疑的态度。 


y 



y 



X 

(b) 




注 :来自 F . J . AnsoomWmS )。 在每个散点图中都显示了最小二 乘回归 直线。 
资料 来源 : AnscombeC 1973) 。已经获得美国统计协会授予的重新作图和印刷权。 

图 1.1 具有同样标准回归输出的数据集 


上述例子的简单阐释一定程度上介绍了本书的许多议 
题，包括非线性、奇异数据、强影响数据以及图示的重要作 
用。普通的回归结果往往不能清晰地表现岀全部的真实状 
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况，诊断方法(其中许多是使用图形的)帮助我们填补回归结 
果未顾及的那些部分。 

第2章主要回顾最小二乘线性回归。第3章将讨论多 
元回归中共线性的问题。第4章主要处理奇异与强影响数 
据。在第5章至第7章中，我们将主要探讨误差非线性、不 
一致的误差方差和非线性问题。第8章将简要阐释离散数 
据产生的问题。第9章主要介绍基于最大似然法、计分检验 
和构造变量的较复杂的诊断方法。在第10章中，我 1门将考 
虑如何将介绍的具体诊断方法和技术应用到研究中。这一 
章的内容也包括如何使用电脑软件进行回归诊断，并以阅读 
书目的推荐作为全书的结束。 

大部分技术性的细节可参见本书的附录。对附录内容 
理解的基本要求是掌握一定的最小二乘法的矩阵代数以及 
基本的统计理论。尽管附录提供了更加深入的内容，但不十 
分重视技术的读者仍可以略过，这并不影响对本书的理解。 
我的目标在于使这本书在一定程度上是独立的，同时保持其 
通用性。 

本书当然无法包含有关诊断的全部内容，但我试图处理 
一 些可以使回归模型更加有效的中心议题。由于篇幅限制， 
除了在第10章中略有提及，本书不包括解决时间序列回归 

中的误差自相关问题的方法。关于这方面的内容，可参见另 
一 本专著 ( Ostrom ， 1990)。 
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目归诊断篱介 


由于我们已经假定本书的读者对于最小二乘回归非常 
熟悉，因此本章的主要目的在于对其进行回顾。在附录1中 
有具体演算过程。 
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第1节 


回归棋型 



线性回归模型可以用以下方程表示 出来： 

= po + pl*3：if + p2l2i + …+ +£.- [2-1] 

其中，£ = 1，…， n 表示样本观测。在方程 2.1 中，: V ,是因变 
量， A 是回归因子，&是不可观测的误差。 ft 是需要从数据 
中估计的未知参数。按照通常的标准，我们假设误差是独立 

的，且符合期望为0、方差为常数/的标准正态分布 a 〜 

■ 

NID (0，¥)。 违背这一假设的结果和用于发现是否违背这 
一假设的方法将在后面进行讨论。 

如果 巧与％ 都是由抽样获得的，而不像实验设计那样 
是限定的，则还需要假设 x 的分布独立于 a 。 最后一个假设 
既可以被认为是描述性的也可以被认为是结构 性的: 从描述 
方面来讲，任何 I 值上^所有取值的均值和 I 值本身构成的 
点必须在回归平 面上; 从结构方面或因果方面来讲，我们另 
外要求^被忽略的原因（其为包含在误差中的一部分)本身 
不受 x 影响，且与 x . 线性不相关。除非特殊情况，否则最后 
一 个假设是无法用数据检验的，因为最小二乘拟合确保了用 
于估计误差的残差与样本中的 x 是不相关的。 
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第2节 I 最小二乘估计 



拟合的回归可以写为： 

yi — +6iXi, + 6 2 j: 2 £ + …+ bkX^ + e { = y t + e { 

其中，巧和义与方程 2 . 1 中的一样， 6 ,是相应的 ft 的估计，< 
是残差。拟合的值可以通过 A = 6 。+ b x x u + 6 2 工 2 , +…+ 
获得。用于确保残差平方和最小而获得的最小二乘回 
归系数是符合下列标准方程的 6 , 值： 

M + 匕 ^- h6* X! = 

60S x x + 6 ] + … + 6 * D x x x k = Zj^\y 

* 

奉 

* 

boZjJCk 十 h 2_jX x x k H - \-b h 2_jx\ = ZjJC k y 

由于总数显然超过了 i = 1，…，《，所以我停止使用用于表 
示观测值的下标 i (例如 A 代表: ^, ) 。 上述标准方程对6,有 
唯一解值，但需要满足两个条件： （1) 所有的: r , 都不是恒定 
的； （2) 任何&都不能是其他的完全线性组合。 

标准方程显示最小二乘残差和为0,因此其平均值也为 
0。此外，这些残差和拟合值与: r 均不相关，原因 在于： 
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2心义^ ° 

/] e { xji = 0(j = 1 ， … 、 k) 

误差方差是根据？ = 1>〗/(«一々_1)估计得出的，其 

中 — 1是误差的自由度。拟合模型复相关系数的平方 
可以表示 如下： 

尺 2 — X ) (乂—夕 ) 2 — X ! 4 — X ) (义一夕) 2 - 

S (: V / _夕) 2 2 (: v .- 夕) 2 

它可以解释为用 x 进行线性回归来解释的^的比例。 
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[ B 6 诊新筒介 


第3节 I 回妇系数的统计推论 


被估计的回归系数匕， •• •，仏的抽样方 差为: 


V ( b } ) = 



5 2 

(n — l)s; 


X I 




其中，< = D (A — x ,) 2 /( n —1) 是工; 的方差，尽是通过利 

用其他 x 对&进 行回归而得到的复相关系数平方。零假设 
H o ! Pj = pj 0) (通常 H 0 •• 氐= 0) 的 t 统计量是由《。= ( 匀— 
^ 0> )/ SE ( bj ) 获得的，其中 SE (6,) = [9(~)] 1/2 是《的估计 
标准误。根据 H 。， r 。 符合 t 分布，其自由度为 

为了检验所有回归系数均为0这一假设(除了常数氏）， 
例如， ff 0 :氏=(3 2 =〜=氏=0(其中夕<«，我们可以计 
算增量 F 统计 值： 


_ n — k — 1 R 2 _ Ro 

r 0 = - : - X 


P 


l - R 2 


在这里， i ? 2 与之前一样，是全模型复相关系数的平方值，而 
Rt 是利用剩余工 ，即； +,，•••，&对: y 进行回归获得的复相 
关系数的平方值。这些£统计和 F 统计均符合回归模型的 
假设，包括正态分布的误差。 

ft 的 100(1 — ct )% 置信区 间为： 
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(3j = ~ 士^/2, rt - kr -\ SE(fe ; ) [2. 2] 

由于置信区间的范围与估计的系数标准误是成比例的， 
SE(6,) 自然成为对估计量6,估计精度的一个测量。 

同样，一个椭圆形的多系数联合置信区域可以通过回归 
系数的方差和协方差以及来自 F 分布的一个临界值获得(见 
附录1)。图 2. 1显示了参数个数为两个 ( ft 与 p 2 ) 的状况。 
正如方程 2. 2给出了在 a 水平下所有可接受的 ft 值，图 2.1 
中的椭圆形包括了所有私与氏联合的可接受值。 

置信椭圆形以估计 值匕与 6 2 为中心。椭圆在印与决 
轴上的投影表示每个参数单独的置信区间，尽管与联合区域 
相比，投影往往在具有高水平的置信度区间。正如置信区间 
的长度表示单一参数估计的精度，联合置信区域的大小 （ 比 
如两个参数时的面积、三个参数时的体积和四个参数时的多 
维体积)表示这几个参数联立的估计精度。 





注: 置信区域组成的椭圆形是以估计量匕与6 2 为中心的。联合置信区域在 
和兩轴上的投影即这些参数的置信区间(但是与联合置信区域相比， 
置信水平较高）。 


图 2.1 系数 h 和&的 联合置 倍区域 
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归诊断 简介 


第4节 I 一般线性模型 




由于除了不能与误差相关之外，没有关于 X 分布的假 


设，这使得线性回归模型的应用范围远比其最初出现时广泛 


得多。 工可 能包括构造的、用以获得定性自变量作用的虚拟 
回归 因子; 或由几个变量构成的、用以了解自变量的非累加 
作用的交互回归因子;或用于对数据中的非线性形式建模的 
多项式回归因子等等。只要模型可以表示为方程 2.1 所示， 


也就是说，模型对参数氏，择，…，氏是线性的，那么就可以 
用线性回归进行分析，回归平面自身不必是平坦的。广义来 
说，线性回归模型也可称为“一般线性模型”。 



































































































































S 归诊新篱介 




正如在第2章中提到的，当线性回归模型的词归因子中 
存在完全的线性关系时，最小二乘系数将不是唯一确定的。 
这一结果可以从只具有两个回归因子，即 k = 2 的情况下看 
出，其标准方程 如下： 

b 0 n ~\~ bi 2 jfXi + bz 

boYj x ^ +*1 X) x l + 6 2 2 x i x 2 = [3.1] 

boZ^JCz+bY^x^Xz+bz^xl = ^x z y 

解这个标准方程可以 获得： 


b 0 = y — b ^ x ^ —bzxz 

/ , ,2 , / / / 
t Zj x ^y Zj x z — Zj^y 2j x i x 2 


n sr \ n / 、 

2 jX ! 2^ J X 2 — (Z 工1工2) 


2 


Vi / , n / / / / 

Zj x ty 2 j x 1 ~ Zj x i^ 2^ 工 1 工 2 


S X， 2 ~ ( X / X 1 X 2) 2 


[3.2] 


其中， x \ = Xi — Xi , X t — x z — x 2 , y = : y — 夕是均差形式的 
变量。 

X !与 J ： 2 的相关系 数为： 
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因此，如果〜=± 1，则方程 3. 2中& 与 bz 的分母为0,这些系 
数无解(更准确地说 A 与&有无限组符合标准方程 3. 1的解)。 

如果自变量之间具有很强的但不完全的线性关系，则会 
导致最小二乘回归系数的不稳定 :系数 的标准误很大，反映 
了 P 值估计的不准确，因此, P 的置信区间范围也很大。数据 
中的变化，哪怕是极端情况下因为四舍五入导致的误差，也 

可以在很大程度上改变最小二乘系数，而且由于最小二乘值 

， _ 

而导致的系数的较大变化也很难增加残差的平方和。 

在前面的章节中，我们提到最小二乘系数6,的估计方 
差为： 


V ( b } ) 






in — 1) 


1_尺 


[3. 3] 


1/(1 -Rp 表示了共线性对估计精度产生的影响大小，叫做 
“方差膨胀因子” ( VIFP 。 需要注意的是， VIF 显示的不是两 
个回归因子之间的相关性(当 k >2 时），而是对某一个自变 
量根据其他所有自变量进行回归得到的复相关系数。因 
此，多元回归中的共线性也被称为“多元共线性”。 


另外值得关注的是，在方程 3. 3中，影响估计精度的其他 
因素是估计的误差方差、样本规模和 A 的方差。误差方差越 
小，样本规模越大; x 的分布越广，则回归的估计精度越高。从 
已有的经验来看，社会科学研究中不精确的估计大多来自过 
大的误差方差和过小的样本规模，而不是严重的共线性。 

由于 ft 的估计精度可以用参数置信区间的宽度来衡量， 
并且由于置信区间的宽度与 ft 的标准误是成比例的，我推荐 
对 VIF 的平方根而非 VIF 本身进行检査。表 3.1 显示， x 间 
的线性关系必须非常强，才能对回归有严重的影响。例如， 
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只有当尺接近 0. 9的时候，估计的精度才会减半。 

以 Ericksen 、 Kadane 和 Tukey 的数据为例，其回归结果 

显示在表 3. 2中。此处的目标在于创建一个预测方程以提 
高对1980年美国人口普查不完全统计的估计。我们已经能 
够肯定，人口普查未能对每个郡中的所有人进行调查。 


表 3. 1回归因子间的复相关函数构成的系数方差膨胀 




a 95 

a 99 

0. 999 

1琴0 


1.0 
1, 04 

1. 19 
L 56 

2. 78 
5,26 

10. 3 
50, 3 
500. 3 


1-0 
1 . 02 
I 09 
L25 

1. 67 

2. 29 

3. 20 
7.09 

22.4 


注: a . 标准误差6,的影响^ 

表 3. 2对美国66个中心城市、州城市和州 
1980年进行的人口普查不完全统计的估计进行的回归 


预测因子 

系数 

标准误 

7 vif 

常数项 

-1. 77 

L 38 


少数族群 

0. 0798 

0* 0226 

2. 24 

犯罪 

0. 0301 

0. 0130 

1. 83 

贫困 

- 0 . 178 

0. 0849 

2. 11 

语言 

0.215 

0. 0922 

1.28 

高中 

0, 0613 

(X 0448 

2, 15 

住房 

- 0 . 0350 

0. 0246 

1. 37 

城市 

1. 16 

0, 77 

1_88 

便利 

0. 0370 

0_ 0093 

1. 30 

R z 

0. 708 




注: 这些作者使用了权重最小二乘回归（参见附录 8) ，由此可以考虑最初对 
66个地区不完全统计估计的不同精度。与之相比，上表显示的是普通最小 
二乘回归。 
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某些类型的个体更容易被漏查，比如非白种人、穷人和 
大城市中的居民。回归中的因变量是对66个地区进行人口 
普查不完全统计状况的初步估计。这66个地区包括16个 
大城市、这16个大城市所在州的剩余地区以及另外34个 
州。初步的估计是根据8个被认为会对人口普查不完全统 
计构成影响的预测因子进行回归得出的，这8个自变量 
如下： 

t 

(1) 黑人或西班牙裔所占的百分比（少数族 群）； 

(2) 每1000人中发生严重犯罪的比例（犯 罪）； 

(3) 贫困群体的百分比（贫 困）； 

(4) 英语口语与写作有障碍群体人数百分比 
(语言）； 

(5) 25岁及以上没有高中毕业者所占人口百分比 

(高中）； 

(6) 住房较小或多单元住宅群体所占人口百分比 
(住房）； 

(7) 城市为1、州及州内其他城市为0的虚拟变量 
(城市）； 

(8) 能够便利地接受访问与拒绝寄回问卷户数的百 
分比(便利）。 

表 3. 3显示了这些预测因子之间的相关系数。尽管某 
些成对的相关系数相对较大(最大的接近 0. 73) ，但并没接近 
1的。从表 3. 2中可以看到，根据 VIF 的平方根，几个回归估 
计(少数族群、贫困和高中的系数)受共线性的影响。 
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表 3. 3对1980年人口普查不完全统计的8个预瀏因子之间的相关系数 


预测 

因子 

少数 

族群 

犯罪 

贫困 

!'五古 
口 

高中 

住房 

城市 

犯罪 

0* 655 







贫困 

0, 738 

0. 369 






语言 

0. 395 

0.512 

0. 152 





高中 

0. 535 

0. 0666 

0. 751 

— 0. 116 




住房 

0, 356 

0. 532 

()• 335 

0_ 340 

(X 235 



城市 

0.758 

0. 729 

0. 538 

0, 480 

0. 315 

0. 566 


便利 

-0. 334 

-0. 233 

— 0. 157 

— 0_ 108 — 0. 414 

一 0. 0863 

— 0. 269 


资料来源： Ericksen，Kadane Tukey (1980)。 


作为直接衡量共线性对估计精度影响的指标，系数方差 


的膨胀度可以扩展用于几个系数的置信区域。相关的应用 
包括虚拟变量或多项式变量的情况，但在这里，单一系数的 
方差膨胀则不太受关注。 
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第2节 I 对共线性的 处理: 

没有速效方法 



当^与^之间共线性问题很突出时，例如在工 2 统计被 
控制恒定的情况下，数据不包括任何由^带来的影响，因为 
当工 2 被固定时，:^也没有任何变化。当然，当固定^时, x 2 
的情况也一样。因为 h 估计了 a 固定时^的局部效应。 
尽管有许多用来处理共线性的方法，但没有一个能从数据中 
提取出根本不存在的信息，否则就是研究的问题被不经意间 
重新定义了。在一些情况下，这种重新定义是有理可循的， 
但通常情况下并非如此。解决共线性问题最理想的方式就 
是在避免类似问题的情况下收集新的数据，如对 X 进行实验 
操作。但不幸的是，这个解决方法往往不切实际。 

有几种不能充分解决共线性数据的处理方法将在下文 
进行讨论。此处我用较大的篇幅探讨变量选择问题，因为选 
择的方法往往已被社会科学家滥用，并且关于变量选择的策 
略比较直接，另外，在某种或有限制的情况下，变量选择往往 
是一种合理的解决对策。 

第一，模型的重新确定。尽管共线性是数据中的问题而 
非(必然)模型的缺陷，但一种解决此类问题的方法是模型的 
重新确定。也许经过进一步的思考会发现，某些模型中的回 
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归因子可能是同一个潜在建构的、不同的概念化指标。所以 
这些测量可以使用某些方法进行合并，或者可以选择用来表 
示其他的建构。在这种情形下，被研究的自变量 I 的髙度相 
关恰恰显示了高度的有效性。假设一个跨国分析是针对影 


响婴儿死亡率的因素，那么自变量中的人均国民生产总值、 


人均耗能量以及人均电视拥有率会高度相关。此时，研究可 
能将这些变量处理为展现总体经济发展水平的一个指标。 

另外，我们可以重新考虑是否需要在检 查/与 A 的关 
系时控制一 ■般 来说，这一"类的重新确认只发生在初始模 
型不理想或研究者想要放弃一些研究目标之时。例如，假设 
一 个时间序列回归旨在检验决定已婚妇女参与劳动的决定 


因素，共线性问题使我们很难分离男性工资水平与女性工资 


水平的影响。但是在这个研究中，我们仍希望在控制其他自 
变量时，理解妇女的工资与参与劳动力市场的局部关系。 

第二，变量选择。 一 个常见的但往往容易被误用的解决 
共线性的方法是变量选择，它往往有 i 定的步骤，用来将模 
型中回归因子减少至较低相关性的组合。向前逐步回归的 
方法是每次在模型中加入一个变量。在每一步中，使记增 


量最大的变量将被选择留下。这一步骤在增量比预先设定 
的标准小时停止。向后逐步回归方法与之类似，差别在于全 


部过程从全模型开始，且每次删掉一个变量。向前/向后的 
方法是上述两种方式的组合。 

逐步的方法往往被一些不成熟的研究者滥用，他们试图 
将变量纳入回归方程的次序作为对这些变量重要性的解释。 
这类处理方式可能是误导性的，因为在某种情况下，两个高 
度相关的自变量 I 可能对^有同样的影响，但只有一个可以 
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被纳人回归方程，因为另一个不能增加任何附加信息。对数 
据稍加处理或另选一个样本则可能导致相反的结果。 

在技术上对逐步方法的反对是因为其可能无法显示出 
给定数量的最佳回归因子的组合子集（比如能够使茫达到 
最大的子集)。计算机技术的进步可以使我们在计算过程中 
检査所有回归因子的子集，即便回归因子的个数6非常大。 
除了使选择的标准最优化之外，选择子集这一技术也对揭示 
其他可能的或几乎等同的模型大有裨益，这样可以帮助避^ 
产生唯一“正确”的结果的状况。 

一个常用的选择子集的方法是基于所有（或定额）的从 
$估计得出的 EG ) 的均方差，即根据观察到的拟合平面中 
的 x 估计总体回归 平面： 

7, = AS MSE (^) = As + LE ( y t )- 

i=i ® i=i 

[3.4] 

其中，拟合值 A 是基于包括 P < k +1 个回归因子的模型(包 
含常数项，它往往都包含在模型中）得出的。如果研究目标 
就是根据 I 预测 3N 那么使用误差作为估计 E ( 30 的标准就是 
合理的。 

需要注意的是，方程 3. 4中的[£：(义)一£(30] 2 表示对 
总体回归平面£00得出的估计值义的偏差平方。当共线性 
的回归因子从模型中被删除的时候，一般来说， V (;) 会变小 
(取决于数据点的构成与真实的卩在回归因子中被删除），但 
是偏差则可能被引人拟合值。因为 MSE 是方差的和与偏差 
的平方，所以根本的问题在于，方差的降低是否造成了偏差 
的增加？ 
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Mallow (1973) 的 C p 统计量将估计为： 

C p = —^~2— H 2/> —— n =( 是 + 1 —— p) (Fp —— 1) + 户 

其中，残差来自考虑中的子模型，误差方差的估计量 P 是全 
模型中的/，&是 F 统计量的增量，用以检验现在的子模型 
中被忽略的回归因子总体系数为0这一假设。如果这个假 
设是成立的，则 E ( C p )^ p 0 因此，一个好的模型驻往拥有接 
近或小于 P 的 C , 值。同样，使 C p 值最小也会导致残差平方 
和的最小化，从而使 i ? 2 最大化。需要注意的是，对于全模型 
来说，必然等于是+ 1。 

由于好的模型拥有接近于户的值，所以我们可以依 
据户来对 C , 进行绘图，从而辨识出好的模型。在此图中，将 
每个点都用符号标示以代表包含在模型中的自变量，并将 
C fi = />这条线叠加在这个散点图上，好的模型会接近或低 
于这条参照线。如果依据户对进行绘图去除了趋势（即 
每一个点都减去参照线），那么这个散点图将非常易于观察。 
此时我们可以寻找 C p - P 接近或小于0的值。 

图 3. 1是关于人口普查中不完全统计的一个解释性的 
C , 散点图。图中只包含使 C ,— /><10的模型(包括2 8 _1 = 
255个预测因子子集中的52个）。 Ericksen 等人 （1992) 选择 

了图中标为 MCN 的子集(包括少数族群、犯罪与便利这三个 
预测因子)。在此= 4且 C , = 12.7。 

这表明了仍有提升的空间，有待引入更多的预测因子。 
表 3. 4包含了这个子集的回归方程、四个回归因子 ( MCLN ， 
加入了语言，/>=5且 C , = 8.5) 和五个回归因子 ( MCPLN ， 
加人了贫困= 6且 C , = 7. 3 )的“最佳”子集的回归方程。 
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注：大写字母用于标示变量， 即少数族群 （ Minority )、 犯罪 （ Crime )、 贫困 
(Poverty) 、语言 （ Language) 、高中 （High schoold) 、住房 （ hOusing) 、城市 
(city) 和便利 （coN vent ional) Jricksen 等人 （ 1989) 选择了自变量子集 
MCN (即少数族群、犯罪和便利）。 

图 3. 1 对普查不完全统计的— p 根据 p 绘制散点图 


表 3. 4最优的模型回归子集 


预测因子 - 


系数 a 


P ^ 

p ~ 0 

/= 6 

常数项 

— 2. 22 

一 1.98 

-0, 793 


(0.56) 

(0. 55) 

(0_ 860) 

少数族群 

0. 0786 

0. 0752 

0, 101 


(0. 0147) 

(0. 0143) 

(0, 020) 

犯罪 

0* 0363 

0* 0272 

0. 0243 


(0. 0100) 

(0.0104) 

(0_ 0103) 

便利 

0, 0280 

0. 0273 

0. 0293 


(0. 0081) 

(0. 0077) 

(0. 0077) 

语言 


0. 209 

0, 184 



(0, 087) 

(0. 086) 

贫困 



一 0. 110 




(0 + 062) 

R 2 

0. 638 

0- 669 

0. 686 

c P 

12. 7 

8. 51 

7.32 


注:&括号内为系数的标准误。 

资料来源：数据来自 Erickscn，Kadane & Tukey ( 1989) 。 
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对于这个数据集来说，向后与向前/向后逐步回归的方法确认 
了包括三个、四个和五个预测因子的“最佳”子集，但是向前的 
方法却无法做到(但是通过回顾之前的内容， Ericksen 等人采 
用了一种比普通最小二乘回归法更复杂的估计策略)。 

在进行变量选择时，应该牢记以下的告诫： 

首先，最重要的是，变量选择导致了一个重新确立的模 
型，但是往往不能解决我们一开始提出的研究租题。尤其在 
最初的模型是正确确立的，并且包含的与忽略的变量是相关 


的情况下，根据变量选择而获得的系数估计量将是有偏的。 
这样一来，这类方法最适用于纯粹的预测问题，其中根据回 
归因子得出的预测数据的值将在这个选择发生的数据框架 
之内，正如在人口普查不完全统计的例子中。在这种情况 


下，即使系数本身是有偏的，仍然有可能获得 £( 30 的良好估 
计值。但是，如果对于一个新的观测值来说4在它与那些得 


出估计值的观测中是不同的，则相应的预测^可能严重 


有偏。 


其次，当回归因子成系列出现时（例如虚拟变量），这些 
系列则应在选择过程中被保留在一起。同样，当回归因子中 
有分层关系时，那么这些关系应被保留。比如，如果主效应 
不包含在回归因子中，那么包含这个主效应的交互项回归因 
子也不应该出现在模型中。 

第三，因为变量选择使模型对样本数据的拟合最优化， 
所以基于变量选择的自变量系数的标准误(以及置信区间和 
假设检验)往往会夸大结果的精确度。因此，利用样本的偶 
然性特征是有风险的。关于这个问题的解决方法，我将在第 
10章对交叉效度的讨论中提及。 





最后，即便是在没有严重的共线性问題时 
用于统计建模。删除估计系数很小的回归因子? t 往齒截 I 问 
題的，这也将建立一个更简约的模型。事实上，在一样本 
中，删除很小的但是具有“统计显著”的系数也是合理的。 

另一种处理共线性数据的方法是有偏 估计。 这种方法 
的思路是用一小部分系数估计值的偏差换取系数样本方差 
的大幅降低。得到对 p 的估计结果与最小二乘估计相比^拥 
有较小的均方误(对比关于估计回归子集的讨论)。最常见 
的有偏估计模型称为“岭回归”(在附录2中有简短的介绍）。 

与变量选择一样，有偏估计对于共线性问題来说也不是 
神奇的万灵药。例如，岭回归涉及选择一个任意的岭常数以 
控制岭估计与最小二乘估计之间差异的 程度: 岭常数越大， 
偏差越大，而岭估计的方差也越小。不幸但也可以理解的 
是，为了选择一个最优的岭常数（哪怕只是一个好的岭常 
数)，往往也需要一些我们试图估计的、未知的 P 的信息 。我 
在此提及有偏估计的意图正在于对其通常的使用提出告诫。 

处理共线性数据的最后一个办法就是引人额外的预知 
信息，帮助降低由共线性带来的模糊状况。有几种不同的方 
法可以将预知信息用于回归中，但我们应该用一个简单的案 
例来解释这一方法。更复杂的方法将不在此处进行讨论，这 
些方法有时难以应用到实践中（参见 Belsley，Kuh 
Welsch , 1980:193—204； Theil , 1971:346—352)。 

假设我们想估计以下 模型： 

■ 

y =^0 +Pl 工 1 工 2 

其中， y 是储蓄 ， X , 是工资收人， x 2 是个人股票收入，: r 3 是利 
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息收入。假设我们很难估计 乐与 ft ，因为 X 2 与 X 3 高度相 
关。进一步假设我们有理由相信择 = P 3 , 并用常量心表示。 
如果 X 2 与 X 3 不高度相关，我们可以直接对 ft =决这一点进 
行假设检验。在这种情况下，我们拟合模 型为： 

y = +Pi 工 1 +P* (-r 2 + J ： 3) + e 

将我们已知的 p 2 = p 3 整合到模型中去，由此便解决了共线性 
的问题(同时也使得检验氏=$这一已知信息成为可能)。 

尽管几种解决共线性的方法是分开讨论的，但它们仍有 
许多共同 之处： 

第一，模型的重新确认涉及变量的选择，而变量的选择 
也有效地重新确认了模型。第二，变量选择潜在地使回归因 
子不能被全部删除。第三，如果被删除的变量是不为0的 p 
值，且与包含在模型中的变量相关，变量选择就会导致有偏 
的系数估计值。第四，某些类型的预知信息将导致一个重新 
确认的模型(正如在假设的例子所示）。第五，可以证明，类 
似于岭回归的有偏估计方法潜在地对卩的值进行了预先 
约束。 

从这些比较中，我们首先可以得到的经验是，机械的模 
型选择让与修改程序这一做法将掩饰建模决定的很多推论。 
因此，这些方法通常不能弥补数据的缺点，也不能作为判断 
和思考的替代物。 
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不寻常的数据在最小二乘回归中往往是有问題的，因 
为他们将严重影响分析结果，并且它们的存在往往表明现 
有的回归模型不能很好地捕捉到数据的重要特点。一些重 
要的区别在描述简单回归模型 y = po +饵工+ £的图 4. 1中 
可以看到。 

在简单回归中，一个奇异值是指因变量的值在给定自变 
量的值时，得到不寻常的观测值。相比，一个单变量的奇异 
值是^或 Z 在无条件的情况下，得到不寻常的值，而这样的 
值不一定是回归中的奇异值。回归中的奇异值在图 4.1 的 
( a ) 与 ( b ) 中均出现。在图 4.1( a ) 中，奇异的观测量在 x 的分 
布中处于中央，因此若删除这个奇异值，对于最小二乘回归 
的斜率匕与截距6。几乎没有影响。在图 4. 1( b ) 中，奇异值 
在: r 值上有不寻常的值，因此若将其删除，将显著影响斜率 
与截距。因为有不寻常的 x 值，所以在图 4. 1( b ) 中，最后一 
个观察值对回归系数有强烈的影响，但是图 4. 1( a ) 中的中间 
观测值则为一个弱影响点。 

高影响点组成的奇异值对回归系数有极大的影响。在 
图 4.1( c ) 中，最后一个观测值对回归系数没有影响，哪怕它 
是一个高影响点，原因在于这个观测值并没有离开剩余的数 
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注: (a)-_- 个接近 i 均值的奇异值对回归系数没有很大的影响. （b)— 个与 2 
均值相距较远的奇异值对回归系数产生了较大影响。 （ c ) 一个与其他数 
据在一条直线上的髙影响力观测值并不影响回归系数。 

图 4.1 简单回归分析中的影响力与彩响程度 


据组成的直线。下面这个公式将帮助区分这些 概念： 

对系数的影响=影响力 X 差异程度 

图 4. 2是来自 Davi S (1900) 真实数据的一个简单而明显 
的例子。这些数据记录、测量并报告了 183位参与这一曰常 



30 50 70 90 110 130 150 170 

测量的体重（公斤） 


注:分 析中的183个对象都参加日常运动。实线显示的是对女性的最小二 
乘回归，折线显示的是男性的回归。 

资料 来源: C. Davis。 

图 4.2 对以公斤计的汇报体重根据测置体重和性别进行的回归 
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生理测试项目的男性与女性的体重（公斤）。作为一项大型 
研究的一部分，研究者对于判断研究对象是否准确报告他们 
的体重值以及男性和女性在报告体重方面是否有差异十分 
感兴趣(这项公开研究仅基于女性研究对象以及后来加入 
的、从不运动的女性的数据）。 Davis (1900) 提供了测量的与 

报告的体重值之间的相关系数。 

根据申报体重 ( RW ) 和测量体重 ( MW ) 进行最小二_乘回归， 
用一个虚拟变量表示性别 ( F:l 为女性，0为男性)，并用一个交 
互回归因子可以得到下面的结果(包括括号中系数的标准 误)： 

lSv = 1.36 + 0. 990 MW + A 0. 0 F -0. 725 MW X F 

(3.28) (0.043) (3. 9) (0. 056) 

R 2 = 0. 89 5 = 4. 66 

如果这些结果是严谨地计算出来的，我们则可以总结男性较 
之女性，更准确地汇报了他们的体重（因为 6。 且仏〜1)。 

另外，体重较轻的女性倾向于报高体重，体重较重的女性倾 
向于报低体重。但是，图 4. 2显示，男性和女性的不同测试 
结果实则因一个报告自己的体重为平均值，但测量体重极大 
的女性研究对象造成的。 

事实上，这个研究对象的测量体重和其身高(厘米)在数 
据输入的时候被搞混了， Davis 在计算出类似的报告与测量 
体重间的较低的相关系数后发现了这一点。修正数据后，得 
到如下回归 结果： 

= 1.36 + 0. 990 MW +1. 98 F -0. 0567 MW X F 
(1.58) (0.021) (2.45) (0.0385) 

R 2 = 0. 97 5 = 2. 24 
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结果显示，男性与女性均较准确地报告了他们的体重。 

还有另外一种方法可以分析 Davis 的体重 数据: 某一研 
究者的兴趣在于确定研究对象是否足够准确地报告了他们 
的体重，以便利用报告的体重作为测量体重的替代数据。因 
为这种做法会使收集体重数据的支持大大降低，我们自然会 
认为报告体重受到“真实”体重的影响，正如上面的回归中将 
报告体重作为因变量。然而替代的问题则基于对测量体重 
根据报告体重进行回归，下面的回归结果是基于未修正的 
数据： 


. MW = 1. 79 + 0. 969 W + 2. 07 F - 0. 009 S 3 MW X F 

(5.92) (0.076) (9.30) (0. 147) 

R z = 0. 70 5 = 8. 45 

请注意，在此方程中，奇异值对回归系数没有什么影响，原因 
在于这个奇异值的报告体重值接近女性报告体重值的均值。 

然而，它对于复相关系数和标准误仍有显著的影响。对于修 
正后的数据， i ? 2 = 0. 97, 5 = 2. 25。 
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第 1 节 I 测置影«力：预测值 



预测值\是对回归影响较大的一个常见的测量。如此 
命名这些值的原因是可以通过观测值％来表达拟合值义： 


n 


y } = h l} y x +h 2 j y 2 


_ • _ 


+ + … 




因此，权重 ~ 显示了 ％对义的影响 程度:如果义 很大，则第 
个观测值对于第）个拟合值有较大的影响力。方程也可以 

写做心= a M ，则奇异值仏=心表示了乂对所有拟合 

_ • j= 1 v 

值的潜在影响。预测值的取值在 l / n 与1之间（即 l / n < 


<1)，其平均值为& = Ofe 十 l)/n 


0 


在简单一元回归分析中，预测值测量了距离 X 均值的 


距离 


=- h 

n 


(xi — x) 


n 


y^j ( xj — x ) 


2 


在多元回归中， / l , 测量了距离: T 圆心的距离，在考虑到 X 的 
相关结构后，可以由图 4. 3来表示 A = 2时的情况。在 I 空 
间中多变量的奇异值为强影响的观测值。 

在 Davis 根据测量体重对报告体重进行的回归中，最大 
的预测值是第12个观测对象，其测量体重被错误地记录为 
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A 



注: 有两个高影响力的点 :一个 (用较大的空心点 标示〉 在 A 与^上都有异 
常大的值;另一个(用较大的实心点标示）只是 a 与力的组成较为异常。 

图 4.3 自 变量为灸=2的恒定影响力(恒定的化）的等离线 

166公斤，即心 2 = 0. 714。这个数字远远大于平均的奇异值 
0 . 0219(/1 = (3 + 1)/183 = 0. 0219)。 
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第2节 I 查找奇异 值:学 生残差 



为了确认一个奇异的观测值，我们需要一个指标测量3^ 
在给定 x 下不寻常的程度。一般来说，差异性的观测值都有 
较大的残差，但是即便误差^有相同的方差（正如回归模型 
中假设的），残差也并不相同， V ( e ,) = 。因此，强 

影响的观测值往往有较小的残差，这是可以理解的，因为这 
个观测值可以强迫回归平面向它们靠近。 

尽管我们可以通过计算 〆 =得出标准化残 
差的值，但这个方程的缺陷在于分子与分母并非独立的，使 
得 W 无法 服从？ 分布。当 k 丨很大时，由于包含了 5 = 

也同样很大。然而假设删除了第/个观 

测之后重新拟合回归模型，基于剩下的数据得到了一个 J 估 
计量此时的学生残 差为： 


ej 

5(-,) \/l 


[4. 1] 


该方程有独立的分子与分母，且服从自由度为 n — 的 z 

分布。 

另一种用于寻找学生残差的步骤使用了均值漂移的 


模型 
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^> = pb + H - h + ydj + tj [4. 2] 

其中^是一个虚拟变量集， 1 为第 f 个观测值，0为其他所有 
观测值。因 此有： 

E(yj) = Po+pi^ H - (> ^ 1) 

£X 乂） = Po+PiXii + …+ p*x fc - +7 

如果在检验数据之前，我们就已经怀疑观测〖与其他的不同， 
那么自然需要确立方程 4. 2。然后为了检验//。:7 = 0,我们 
可以得到 A = $/SE( ?)，在 H 。 假设下，其分布为通 
过观察则可以发现，它即方程 4. 1中的学生残差。 

这与统计中其他方面一样，术语并非完全准确4有时 
候也称为“删除学生残差”、“外部学生残差”或者“标准化残 
差”。最后一个称谓也常应用于因此，精准地确认电脑程 
序究竟计算的是哪一个量是非常重要的，但在大样本中，往 
往有 5^ € i ^ ei/so 

因为在大多数的应用中，我们都不会提前怀疑某个观测 
值，因此我们可以重新拟合均值漂移模型《次，且每次针对 
一个观测值，得到 A ，&，…，^。在实践中，方程 4. 1与方程 
4.2 的其他替代方程对于 A 几乎没有计算的效用。因而我们 
的兴趣往往转向了最大的绝对值 b 称为 r。 因为我们已经 
获得了 n 个检验中最大的统计量，所以仅仅去发现〆的统计 
显著性就不正确了。例如，即便我们的模型是足够的，且暂 
时不考虑 A 之间的相关性，我们仍可以预计观测到5%的心 
在心,。 25 〜±2之外，1%的&在^。.。。 5 〜± 2 . 6之外等等。 

解决同时推论这一问题的办法之一是对最大的£值进行 
Bonferroni 转换来转化 t— z (另一种方法是考虑到学生残差 
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的数量，构造一个分位数比较的散点图，这将在第5章中介 
绍）。 Bonferroni 检验需要一个特殊的 i 表格或 一 个对处于 

分布尾处的£可以获得准确的值的计算机程序。在后一种 
情况下，假设 〆 = Pr ( t 出 >1 r I ),则检验 r 统计显著性 
的 P 值为 P = 2 rtf /。 其中，2表示这个检验是双尾的，即我们 
既想要找到大的负奇异值，也想找到大的正奇异值。方程中 

的 n 表示同时进行了〃个检验，暗示要在《个检验统计量中 

— — 

选择最大的 。 Beckman Cook (1983) 证明了 Bonferroni 转换 

非常适用于检验最大的学生残差。需要注意的是，要想获得 
统计的显著结果，则与普通的个别 f 检验相比，需要获得一个 
更大的 〆 。 

在 Davis 根据测量体重对报告体重进行的回归中，最大 
的学生残差是第12个观测值 ： h =—24. 3。在这里，《 —是一 
2 = 183 — 3 — 2 = 178,且 Pr ( t m > 24. 3) «： 1 CT 8 (符号《表 

示“远远小于”)。我用于寻找尾处概率值的计算机程序无法 

计算出一个这样大的 t 的更精确的结果。对于这个奇异值的 
检验 ， Bonferroni p 值为 p 《178 X 2 X 10一 8 = 4 X 10— 6 ( 即 

0. 000004) ，是一个非常确定的结果。 

到目前为止，我已经将确认(以及暗含的潜在修改、去除 
或调试)奇异值作为一个假设检验。尽管这是目前实际应用 
中最普遍的一种方式，但还有一个考虑拒绝可能的奇异观测 
值时，对估计进行投入产出分析的更合理的方法。 

假设此时拥有 最大& 值的观测是一个不寻常的数据点，但 
却是通过假设的统计模型计算出的，即^ = Po+ 氏工 n + …+ 
㈣ ，其中〜 NID (0, ( T 2 ) 。删除这样一个数据点将会降 

低估计的有效性，因为模型是正确的（包括正态分布这一假 

■ 


* 
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设），所以最小二乘估计量对卩的所有无偏估计是最有效的。 
但是如果这个有问题的数据点与其他的不一致(如均值漂移 
中所示的），则将其删除会使这个估计更加有效 。 Anscombe 
(1960) 通过做一个保险的类比表明了这一观点 ：为了 获得没 
有“坏”数据的保障，我们选择了一个拒绝奇异值的规则（或 
者使用了一个可以抵抗奇异值的估计量，即稳健估计量），而 
当这一规则拒绝了“好”数据时，其保险费则由有效性来_ 
赔付。 

用 P 来代表理想中的保险费，即如果这个模型适用于所 
有数据，则会导致估计量的均方误上升5%。用 z 表示相应尾 
部概率 J °( n _ 1 )/? 2 的单位正态变异。根据 Anscombe 和 
Tukey (1963) 的步骤，计算 1.4 + 0. 85 z , 则可以 获得： 


f = m l — 

■ 


m 2 — 2 
4(71 _ k _ 1) 


X 



f y/n — k — 2 
\/ n — k — 1 — f" 


[4.3] 

[4.4] 


最后， 如果丨 ^ |>/ ，则不具有最大学生残差的观测值。在 
实际应用中，我们应该探究这些不一致的观测值(将在本章 
最后讨论)。 

例如，在 Davis 起初的 w = 183, ^ = 3的回归中， P 值为 
0.05,则我们 得到： 

P(n~k-l)/n^ 0 . 05(183-3-1)/183 = 0. 0489 


从单位正态表中可以査出，2： = 1. 66,则 m = 1. 4 + 0. 85 X 
1. 66 = 2. 81。因为 f =24. 3,远远大于 人则第 12个观测值 

被确认为奇异值。 
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第3节 I 测量影噙 程度: Cook 距商与 

其他诊断方法 


正如在前面提到的，对回归系数的影响包括影响力和差 
异程度两部分。最直接的测量影响程度的方法就是逐步删 
除各个观测值，观察对于系数的影响： 

~ ~ bj(—o G = 1， ••_ , n ； 7 = o , •**, k ) 

其中 ，心 4表示当第〖个观测值被删除时，对 ft 进行最小二 
乘估计得到的结果。为了便于理解，有必要对坞根据系数标 
准误的估计值进行度量。 


SE (_ 0 ( bj ) 


沿用 Belsley 等人的命名 （1980)4 往往称为 DFBETA ^ , d ； 
则称为 DFBETAS & 。 


使用 d 马与 d ; 的一大问题在于其数量太多，每个都有 


nOfe +1) 个。当然，运用图形来检验这些值比使用数字的表 


格省事得多。例如，我们可以对 < 的每一个系数 j =0, 
1，…， fc 构建一个“索引三点图”，只要简单地根据横轴表示 


d ； ，纵轴表示每个观测的索引 i 绘制散点图即可。但是，对 
于这一拟合图上每个观测点的影响程度，则有必要根据其索 




第 4 章奇异值与强影响数据 


39 


引进行归纳。 

Cook (1977) 提出了通过计算“假设”(3,=心_ 0 , j = 0, 
1，…， 々的 F 统计量值，来测量6,与相 应的心 之间的“距 
离”。这个统计量通过对每一个观测；=1， …， n 进行重新计 
算获得。获得的值不能直接被当做 F 检验，因为 Cook 的方 

法只是与检验类似的一种类比，其目的在于获得能够测量独 
立于 x 度量之外的距离。 Cook 统计量可以 写为： 


A = 



其中，第一个方程是测量差异程度，第二个是测量影响力(见 
附录5)。我们寻找比其他值大的 D ,。 

Belsley 等人提出了非常相似的 测量： 


DFFITS , = t { 

注意，除了非常特殊的数据结果， A 〜 DFFITS 〗/ U 十1)。另 

外，还有其他测量影响程度的方法 ( 参见 Chatterjee & Hadi ， 
1998) 0 

因为所有删除统计量都基于预测值和残差，我们可以利 
用图示的方法获得大致的影响程度的测量，即根据绘制 I 
的散点图，并寻找两者较大的观测值。这一散点图更加合适 
的版本是展示与 Cook 的 D 成比例的圆圈图形以替代散点 
(参见 Chatterjee Hadi , 1988:38)。接下来，我们对拥有最 

大的 R 、 IDFFITS , | 或者由大的 /!,• 与 k | 构成的组合进行观 
测，检验其*或<。 

在 Davis 根据测量体重对报告体重的回归中，所有有影 
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响力的点的指标数对有显著差异的第12个观测 如下： 

Cook 的 £)12 二 85. 9( 第—■大的为 乃 21 = 0. 065) 
DFFITS 12 =- 38. 4( 第二大的为 DFFITSso = 0. 512) 
DFBETASb , i2 = DFBET , 12 ~ 0, DFBETAS2- 12 = 20. 0, 

DFBETASs , 12 =-24.8 

需要注意的是，第 12 个观测值是以女性观测为对象的，对男 
性样本的截距6。和斜率匕没有影响。 

在发展对回归的影响程度这个概念的过程中，我聚焦于 
对回归系数的改变。但是其他的回归结果也同样应该被检 
验。其中一个重要结果就是系数的方差和协方差，代表估计 
的精度。例如，在图 4. 1( c ) 中，其中一个高影响力的点并没 
有对回归系数产生影响，因为它与其他数据处于一条直线 
上。在简单一元回归中，估计的最小二乘斜率标准误为 

SE (^) = 5 / V 2 U - x ) 2 , 因此通过增加: r 的方差，高影 

响力观测点会使得 SEOO 降低，即使它并不影响6。与以。 
根据不同情况，这一类观测值可以被认为是有益的（提高了 
估计的精度），也能够使我们对估计的&更有信心。 

在多元回归中，我们可以检验逐个删除观测值对 P 的联 
合置信区域大小的影响。回顾第2章可以发现，这一区域的 
大小与单一系数置信区间的长度相似，因此也与系数的标准 
误成比例。因此，置信区间长度的平方与系数的样本方法也 
成比例，同样，联合置信区域大小的平方与“广义”的一系列 
系数的方差成比例。一项由 Belsley 等人提出的测量影响程 
度的方法与删除的、全部数据的置信区域比例高度 近似： 
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COVRATIO , 



可替代的相似方法由其他几位学者提出 (Chatterjee &• Hadi , 
1988)。在此我们需要寻找 COVRATIO , •与1相差较大 
的值。 

正如对回归系数影响程度的测量，预测值与学生残差也 
被包括在 COVRATIO 之内。较大的预测值将导致较大的 
COVRATIO , 但是，即便（事实上，也正是当 k 值很小，一个 
高影响力且与其他数据在一条线上的观测也会提高估计精 
度。相比之下 ，一 个差异程度较大但影响力较低的观测将不 
会使系数有什么改变，因为它通过增大估计的误差方差而降 
低了回归精度。因此，具有较小的 A 值与较大 f 值的观测将 
产生一个远远小于1的 COVRATIO 。 

例如，在 Davis 最初的回归中，最极端的值为 
COVRATIO ^ = 0. 0103。在这个例子中 ，一 个非常大的心= 

0.714 远非一个很大的心 =一 24. 3可以弥补。 

回归分析的其他特征也可能被个别的观测所影响，包括 
共线性的程度。尽管对共线性影响程度的正规分析远不止 
在此所讨论的（参见 Chatterjee & Hadi ， 1988)，但以下的各 

条建议仍然非常有用。 

第一，对共线性的影响是反映在对系数标准误影响中的 
一个因素。对误差方差的影响和对 * r 变异程度的影响，都可 
以作为 COVRATIO 这类测量的因素。同样， COVRATIO 和 

其他类似的测量也可以检查抽样方差和所有回归系数的协 
方差，包括常数项。然而，我们对共线性问题关注的原因在 
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于，它会影响估计的精度，而 COVRATIO 正可以评估全面的 
估计精度。 

第二，共线性一强影响点是那些诱因或可以使： r 之间相 
关变弱的点。这些点往往（但并非总是）有较大的预测值。 
反之，有较大预测值的点也往往会影响共线性。 

第三，单个诱导共线性的点显然存在问题。但那些明显 
减弱共线性的点同样值得注意，因为它们有时使我们对得出 
的结论过于自信。 

最后，通过对一个自变量根据另一个自变量绘制散点 
图，往往可以得到共线性一强影响的观测。但是如果共线性 
问题涉及的自变量超过两个，这种方式就会失效。 
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第 4 节 I 诊断统计量中的数值截断点 

1— MU —MM— IM MWM 


在利用测量影响力和影响程度判断值得注意的观测点 
时，我刻意没有建议某些数值的标准。我认为，检验这些未 
知量的分布以确定这些奇异观测值的位置更加有效。对于 
学生方差来说，假设检验与保险的观点将得出各种各样的截 
断点，但是这些我们熟知的标准并不能取代图示检验残差的 
方法。 


然而尽管截断点并不十分重要，但它仍有一定的用处， 
它可以帮助强化图形的展示。例如，可以在一个索引散点图 
上画岀一条水平线，吸引对超过截断点的值的注意力。同 
样，这样的值在图中也可以单独被确认（如 Chatterjee & 


Hadi, 1988:38 )。 

一个诊断统计量的截断点可能是统计理论的产物，或者 
是通过检验这个统计量的样本分布得出的。截断点可以是 
绝对的，也可根据样本规模进行调整 （Belsey et al. ， 1980 )。 

对于一些诊断统计量，例如对影响程度的测量，绝对的截断 
点无法在大样本情况下确认需要注意的观测。这一特征部 
分反映出大样本可以弥补异常数据而无需大幅度地改动结 
果，但是截断点往往还是可以辨别影响力相对较大的点，哪 
怕并不存在具有强烈绝对影响的观测。 
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接下来对截断点的简单叙述是基于对统计理论的应用 
得出的。另一个非常简单但广泛使用的基于数据的标准，是 
检验对一个诊断测量来说最极端的5 %的值。 

预 测值: Belsley 等人 （1980) 建议，那些超过（6 + 1)/«均 

值两倍以上的点就需要注意。这种基于样本规模进行调整 

的截断点，是当 x 呈多元正态分布且 &与 n — 6 — 1都相对较 

大时，通过近似确认最极端的5%案例而获得的。但是，这种 

方法只是一种粗略的方针(关于其他预测值截断点的讨论， 
参见 Chatterjee 8^ Hadi ， 1988)。 

学生方差 :除了 考虑上述讨论的“统计显著性”和估计量 
稳健性与有效性，关注相对较大的残差值也很有帮助。回顾 
以前的内容我们知道，在理想状况下，学生残差的5%是在 
h , I <2范围之外的。因此，在学生残差的图示上画出±2 
这两条线并在这个区间外进行观测是有意义的。 

测量影响程度 ：对于 不同的影响程度的测量方法，有多 
种建议的截断点。 

首先是回归系数的标准化变化。 将以根 据标准误进行 
量化后， 1>1 或2的就是绝对的截断点。然而，正如上 
面所解释的，这个标准在大样本数据中无法确认异常观测 
值。 Belsley 等人推荐将这种基于样本规模调整的截断点 

2/ ▲ 作为需要关注的 

其次是 Cook 的 D 与 DFFITS 。 对于 Cook 的 D 与 

DFFITS ， 有许多值得推荐的数值截断点，例如考察 D 与 F 统 
计量之间的类同处。 Chatterjee 和 Hadi (1988) 建议比较 

IDFFITS , | 与基于样本规模的截断点2 V(k+l)/(n-k~l) 

(参见 Cook ， 1977 ； Belsley et aL , 1980； Velleman &- Welsch, 
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1981)。此外，由于 DFFITS 与 Cook 的 D 之间的近似关系， 
所以这两种测量的截断点的相互转化是很容易的。以 Chat - 
terjee 和 Hadi 的标准为例，我们可得转换后的截断点为 
D t > 4/( w _ A _ 1)。绝对的截断点，例如 A > 1，则可能漏 
掉强影响数据。 

第三是 OOVRAnO。Belsley 等人建议当 IGOVRAnO , — 1| 

超过基于样本规模调整的截断点 3 dk + l )/ n 时，就需要注意 

，__ 

COVTATIO , 0 
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I 回归馀断简介 


第 5 节 I 联合的强影«观测 子集: 


偏回归图 




正如图 4. 4所示，观测子集可以联合造成影响或者改变 
其他子集的影响。强影响的子集或者多元奇异值往往可以 
通过逐一进行观测诊断而确认。但重要的是如何在删除这 
样的影响点之后重新拟合模型，因为单个强影响值的存在可 
能强烈影响对其他点的拟合。因此，逐步进行检测的方法并 
不能保证永远成功。 



注: 在每个例子中，实线是对所有数据的回归，较细的虚线是将三角点删除 
后的回归，较粗的虚线是方形点与三角点都删除后的回归。 U) 联合强 
影响观测彼此之间很接近。 （b) 联合强影响观测分布在数据的两侧。 
(C) 观测彼此之间抵消了 :在两 个观测点都删除后的回归与根据整个数据 
进行的回归是相同的。 


图 4. 4联合的强影响数据 


尽管可能存在普适的统计量用以删除包含多个点的子集, 
但是子集的数量过多(可能有 n ! /[>! ( r />)!] 个规模为夕)往 
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往使得这种方法不切实际（但可以参见 Chatterjee & Hadi ， 
1988； Belsley et aL , 1980)。 另一种替代的方法则是使用图示。 

对判断影响程度尤其有用的图示为偏回归散点图，也叫 
做“偏回归影响力散点图”或者“添加变量散点图”。表示 
通过对除了 A 外所有的 x 进行最小二乘回归而得到的残 
差，也就是来自这个模型的 残差： 

yi = b > 0 l) + b ( z 1) x 2i H - h + 

同样，是对其他: r 进行最小二乘回归得出的 残差： 

(1) 丄 （1) 丄丄 (1) 丄 ⑴ 

工 K = c Q +c 2 : r 2 /+ … -i-c k 十 a 

这里的符号强调了对残差 y ” 与： r ( i ) 的解释，它们是^与^ 
在: C 2 ，…，^的效果被移除之后剩下的部分。可以证明对 

进行最小二乘回归获得的斜率与全模型多元回归 
通过最小二乘获得的斜率^是一样的，且从这个回归获得的 

残差与从全模型中获得的残差也是一样的，即 X U) = b \ l \ + 
e t 0 请注意，这里没有常数项，因为作为最小二乘的残差值， 
y ” 与的均值为0 。 

将 y 15 根据，作图，使我们可以检测它们对 h 的影响 
力和影响程度。对其他回归系数(包括6。），类似的偏回归图 
可以被构 建为： 

将根据 xW 绘制散点图(其中 j = 0, 1, k ) 

对于6。，我们对“常数回归因子” x 。 = 1与 j 根据 x , 至 ☆进 

行回归，在这个回归方程中没有常数项。 

图 4. 5是一个解释性的偏回归图。这个例子中的数据来 
自 Duncan (1961) ，他对1950年时的45种职业的评价声望值 ( P ， 




I 回归论断简介 


— 100 -50 0 50 100 

教育程度 


注:1950年45个美国职业。每个点的观测号码都在图中显示。如果这个图 
可以放大，例如在电脑屏幕上，则职业的名称可以显示在数字的旁边。 
对常数项的偏回归散点图并没有显示于此。 

图 4. S 在对声望根据收入和教育的回归中收入和教育的偏回归散点图 


通过评价该职业为“好的”或者“很好”的百分比进行评估)根据 
收人和教育水平进行回归 ( J : 男性收人至少为 3500 美元的百分 
比;£：:男性为高中毕业生的百分比)。这个回归的主要目标是获 
得对那些没有直接进行声望评分，但是有教育程度与收入水平 
数据的职业的拟合分数。拟合方程为(括号中为标准 误)： 

P = — 6. 06 + 0. 599/ + 0. 546E 
(4.27) (0.120) (0.098) 

R 2 = 0. 83 5 = 13. 4 

收入的偏回归图，即图 4. 5( a )， 显示出三个明显会减小回 
归斜率的强影响观测： （6) 部长，他们的工资就其教育程度而 
言，显得 很低; （16) 铁路售 票员； （27) 铁路工程师，他们的收人 
就其教育程度而言，明显较高。偏回归图中横轴的变量是根 
据教育对收入进行回归获得的残差，因此，在此方向上偏离0 
的值就是在给定教育水平的情况下收入不正常的观测。 

教育的偏回归图，即图 4. 5( b )， 显示出同样的三个对教 
育系数有相对较高影响力的观测 ：观测 6与观测16趋于增 
大6 2 ，观测27则与其他的数据相隔太远。 


80, 


80- 
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40- 


40- 
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V) 



00 0+05 0,10 0.15 0.20 0.25 0. 30 

预测值 


注： 每个点都围成一个圆形，其面积与 Cook 的 D 是成比例的。 当仏 > 2 A 
0.13 或 | /, |> 2时，显示出观测的号码。 

图 4. 6对职业声望根据教育和收入的 
回归中将学生残差根据预测值绘制的散点图 


删除了观测6与观测16后可获得拟合 回归: 


6. 41 十 0. 867 1 0 . 332 K 


(3. 65) (0. 122) (0. 099) 


R 2 = 0. 88 


11.4 


正如在偏回归图中看到的那样，与原来的回归相比，上述方 


通过检验单一观测值删除的诊断可以发现，观测6具有 
最大的 Cook 的 D ( D 6 = 0.566) 与学生残差 U - 3. 14)。这 

个学生残差并不非常大，但是，对这个奇异值检验的 Bonfer - 
roni p 值为 Pr ( f 41 > 3. 14) X 2 X 45 = ()• 14 。 图 4. 6 是学生 

残差预测值的散点图，其中圆圈的大小与 Cook 的 D 的值是 
成比例的。对 I G |〉2或心〉 2( 々十 l)/w = 2(2 + 1)/45 = 
0. 13观测的指标也显示在图中。 
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程具有较大的收入斜率和较小的教育斜率。估计的标准误 
已趋最优，因为相对的奇异值已经被删除了。删除了观测 
27,进一步增大了收人的斜率和减小了教育的斜率，但是变 
化很微小：~ = 0，931 j = 0. 285。 
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第6节 I 非同寻常的数据应该 



本部分针对将奇异和强影响数据简单拋弃的情况开展 
讨论。尽管有问题的数据不应该被忽略，但它们也不该被自 
动和不经考虑地删除。 

首先，考虑研究数据为什么非同寻常是非常重要的。真 
正的坏数据往往可以被修改，如果不能修改，就将之删除。 
但是，如果一个不一致的数据点是正确的，我们则应该拭图 
去理解为什么这个观测是非同寻常的。例如在 Duncan 的回 
归中，部长的职业声望很高并不是因为其收入与职业的教育 
水平。与之类似，我认为相对于其教育水平和职业声望，铁 
路工人的高收入反映了铁路协会在20世纪50年代的势力。 

在这种情况下，我们可能选择对这些奇异的观测分别进行 
处理。 

此外，奇异值或强影响数据可能促成模型的重新确认。 
例如，奇异数据的模式也许预示着应该引入额外的自变量。 
如果在 Duncan 的回归中，我们可以确认一个造成部长这一 

职业非同寻常的高职业声望的因素，且我们可以对其他职业 
进行这一因素的测量，则这个因素可被引人回归。在一些情 
况下，对因变量或某一自变量的转化可能使误差的分布对称 
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S 归诊醑介 


或者消除共线性，也使奇异值向其余数据靠近。然而，我们 
必须谨慎以避免过度拟合数据，这会导致一小部分数据决定 
了整个模型的形式。我们将在第9章与第10章中重新讨论 
这一问题。 

最后，除非在情况已经非常清楚时，否则我们应该谨慎 
地删除观测值或者重新确认模型以适应非同寻常的数据。 
一些研究者合理地采用其他的估计策略，例如稳#回归，它 
将奇异数据进行较低的权重而非简单地包括或者拋弃它们。 
这种方法被称为“稳健”的原因在于，即便误差不呈正态分 
布，它们也可以顺利进行(参见附录7中对 Lowess 方法的讨 
论)。稳健估计的好处通过 Anscombe 对保险的类比可以理 
解: 稳健方法与最小二乘方法在误差是正态分布的情况下几 
乎是同样有效的，并且在奇异值存在的情况下更加有效。这 
种方法对髙度不一致的数据赋予0或非常小的权重，但是结 
果往往与谨慎地应用最小二乘法没有差别，并且事实上，稳 
健回归的权重也可以用于发现奇异值。此外,大多数稳健回 
归方法对于高影响力的点非常敏感（参见 Rousseeuw & 

j - 

Leroy , 1987) 0 
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I 回归诊断简介 


误差正态分布这一假设往往过于武断。然而，中心极限 
定律确保在大多数情况下(除了小样本外），基于最小二乘估 
计的推论往往都是有效的。那么我们应该关注非正态分布 
的误差吗？ 

首先，尽管最小二乘估计的有效性是稳健的（正如所讲 
过的那样，在大样本的情况下，哪怕违背正态分布假定，检验 
与置信区间的水平也近乎正确），但是这种方法在效率方面 
并不 稳健: 当误差为正态分布时，最小二乘估计量是无偏估 
计量中最有效的。然而对某些类型的误差分布，尤其在分布 
具有重尾的情况下，最小二乘估计的有效性将大大降低。在 
这种情况下，最小二乘估计量则不如其他的替代估计量有效 
(如稳健估计量或者被诊断加强的最小二乘法）。在很大程 
度上，重尾的误差分布是有问题的，因为它们往往导致奇异 
值，也就是我在前一章所讨论的问题。 

常常被引用对最小二乘估计进行辩护的髙斯-马尔科夫 
定理证明，对于 观测％ 的线性函数，最小二乘系数是最有效 
的无偏估计量。这一结果基于线性、误差方差一致性以及独 
立性这些假设，但是并不要求正态分布（参见 Fox ， 1984； 
42—43)。尽管这些对线性估计量的限定将导致假定拥有简 
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单的样本属性，但是并不能消除最小二乘法对重尾误差分布 
的敏感性。 

其次，那些高度偏态分布的误差，它们除了容易在偏斜 
的方向导致奇异值的出现，也容易危及对最小二乘拟合的解 
释。总之，这种拟合是一种条件均值(在给定: T 下的^)，而均 
值对于一个高度有偏的分布来说也并不是一个对其中心的 

良好测量。因此，我们倾向于转换数据以获得一个对称的误 

_ ■ __ 

差分布。 

最后，一个多峰的误差分布暗示我们可能忽略了一个或 
更多可以将数据自然分成各组的定类变量。由此，对于残差 
分布的检验则可能引发模型的重新确认。 

尽管对非正态误差有检验的方法，在此我仍应该描述一 
些替代图形的方法来检验残差的分布（参见第9章）。这些 
方法对于认定一个问题的特征以及选择解决的方法更有 
帮助。 



I s 归诊断 ff 介 


第 1 节 I 残差的正态分位数 


比较散点图 


: ■乂 濟 ' 

v. .■ "^" !■ "^.l 入 •!£■ ■_. S_n. 


<y.±^yy. 




4 締. 





分位数比较散点图是其中一种图示法，它使我们可以从 
视觉上比较一个独立随机样本的累积分布（学生残差）与一 
个累积的参照分布(单位正态分布）。需要注意的是，这里暗 
示了一种近似，因为学生残差是 （分 布且非独立的，但是这种 
扭曲往往是可忽略的，至少在中等规模到大规模的样本中是 
如此。 

想要构造分位数比较散点图须满足下列几点： 

第一,使学生残差升序排列々 2 > ，…， roo 。 按照惯 
例，第£个学生残差 h 具有 g , = ( i - l /2)/ n 比例的数据在 
其下方 a 这种惯例是计算每个观测值以下的一半和其以上 
一半的值，避免了 0或1部分的累积。0或1部分的累积比 
例将产生问题，因为我们想要用残差分布去进行比较的正态 
分布，将永远不会如此接近0或1的累计概率。 

第二，寻找对应 g , 累计概率的单位正态分布的分位数， 
也就是 Z 〜 N (0, 1) 中满足 Pr ( Z <々） =&的 a 值。 

第三，将^根据4绘制散点图。 

如果6是从单位正态分布中获得的，那么在样本误差的 
界限内 ， h = 4。因此，我们期望寻找一条拥有为0的截距 
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和单位斜率的近似线性散点图，并且有一条直线可以在图中 
进行比较。相比之下，这个图像显示的非线性则正揭示了非 
正态的分布。 

有时将拟合直线根据观测到的中心和残差的散布程度 
进行调整的做法十分有效。为了理解这种调整是如何达成 
的，一般假设一个变量 X 是正态分布的，并具有均值 p 和方 
差 f 。那么对于一个值已进行排序的样本，大约有：^ =^ + 
G ,， 其中4与之前的定义一样。在应用过程中，我们需要估 
计 p 和 I 最好利用稳健的方法，因为普通的估计量——样本 
均值与标准差——会极大地受到极端值的影响。一般来说， 
有效地选择是利用 x 的中位数去估计^用 （ft — Q )/1. 349 

来估计？，其中 Q 与 ft 分别是 x 的第一与第三分位数，而中 
位数和分位数并不受奇异值的影响。需注意的是， 1.349 是 
分离正态分布分位数的标准方差数量。对于学生残差的应 
用，我们得到拟合直线 t (1) = median it ) + {[兑⑴- 
Qi (?)/1. 349]} X ^。 本书中的正态分位数比较散点图采用的 
是最普遍的步骤。 


图 5. 1显示了一些对仿真数据的解释性正态概率散点 
图。图 5. 1( a ) 与图 5* 1( b ) ，其样本规模 w = 25与 n = 100的 

独立样本是分别从单位正态分布中得到的。图 5. 1( c ) 与图 


5. 1( d )， 其样本规模 n = 100的样本是从高度正偏斜的$分 
布和重尾的&分布中分别得出的。请注意图中偏斜与重尾 
是如何从正态分位数比较散点图中显示出对线性的偏离的。 
奇异值与相应的正态分位数相比是那些异常大或小的值，由 
此能很好地进行辨识。 

对正态的偏离的判断可以通过用抽样方差的信息来绘 
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10 


-7 


-3 


0 

正态 分位数 
(c) 


—3 


m 态分位数 
(d) 


注 ：（ a ) 来自 \(0. 1) •其样本规模为 " = 25。 （ h ) 来自 .V ( 0, 1)* 其样本规模 

为 n = 1( K ) ( t 、) 来自正偏态的7」•其样本规模为》= 100。 （ d ) 来自重尾的 
/ 2，其样本规模为》= 1 0 0 : 

图5.〗解释性的正态分位数比较散点图 


制散点图而获得。如果学生残差是从单位正态分布中独立 
得出的，那 么： 


SE(t 


Ig^l — g f ) 


(piz,) V 


其中 • cp ( c ) 是单位正态分布的概率密度 （ sr 高度”)。因此. 
在分位数比较散点图中，计算^ 士2 X SE(k ) 可得出在拟合 


直线2 
取值为 




I 附近约95%的置信区间。如果拟合直线的斜率 
~( Q ： -Qi )/1. 349而不是1,估计的标准误则可能 


需要乘以 f 。而 Atkinson( 1985 ) 提出了另一^种计算标准误 


3 + 5 
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一 2* 5 
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_ 3.5 


-3 


j 三态分位数 


注： 图中显示了一条基于/的中位数和分位点的拟合线，以及两条近似 
2 SE 的逼近线。 

_ 5.2由职业声望根据收入和教育回归获得的 
学生残差绘制的正态分位数比较散点图 


图 5. 2显示的是根据 Duncan 用职业收入和教育对职业 
声望进行回归得到的学生残差的正态分位数比较图。图中 
包括了一条有两条标准误界限的拟合线。需要注意的是，残 
差的分布是十分合理的。 



的方法，他建议使用一种不将学生残差视为独立和正态分布 
的计算性仿真过程。 





学生残差 
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I 回归诊断 ffi 介 


第2节 I 残差的直方图 


正态分位数比较散点图的一个优点是在分布的尾部仍 
有很高的分辨率，这使问题很容易被发觉。但是这种方法的 
一个缺点在于，它不能呈现出整个残差分布的形状。例如， 
多元的情况在分位数比较散点图中就难以辨识。 

相比之下，直方图(频数柱状图）在分布的尾部或者数据 
稀少的时候具有较低的分辨率，但是对于呈现一个分布的整 
体形状十分有效。然而，任意的分类界限、任意的区间以及 
直方图的不准确性，有时会产生对这一数据的错误印象。这 
些问题可以通过使直方图变得平滑而部分地解决(参见 Sil¬ 
verman， 1986； Fox，1990) 0 一 般来说，对于小样本（即 w < 

100)，我倾向于选择茎叶图，它可以直接记录直方中数值数 
据值 (Tukey，1977); 对于中型规模的样本（即100 < n < 
1000)，则使用平滑直 方图; 对于大样本（即1000)，则采 
用最优较窄直方的直方图。 

图 5. 3是对 Duncan 回归中残差的茎叶图。这个图示并 
没有显示出什么需要注意的问题，因为只有一个单一的节 
点，分布合理对称。尽管最大值 (3. 1) 与次大值 (2. 0) 相距略 
远，但是并没有明显的奇异值。 

茎叶图中的每一个数据值都可以被分为两 部分: 前面的 
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数位组成了茎，后面的数位则 
组成了叶。其后的数位则被 
删除了，并不进行四舍五入 
(截断使在表或列中寻找特定 
值变容易）。对于学生残差， 
在小数点上很容易进行这一 

截断。例如在图 5. 3中的残 
差： 0. 3039 — 0 | 3; 3. 1345 — 

3|1； —0.4981 ——0|4。需 

要注意的是，每个数位出现两 



3 
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99865 

444433110 

000011133334 

5577788 

00 

68 
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图 5, 3 对职业声望根据收入和 
教育进行回归获得的 
学生残差绘制的茎叶图 


次，形成宽度为 0.5 的箱柜。 


有星号标示的茎(例如 r ) 对应0—4 的叶; 有点标示的茎(例 


如 1.) 对应 5—9 的叶（更多关于茎叶图的信息，参见 Velle - 
man Hoaglin , 1981 ； Fox , 1990)。 



注:标 示“〆’的代表：/ = (y — 1)/>，对于/> = 0,3/ = Iog r 3^ c 

资料来源： Hoagliru Mosteller & Tukey (eds. )， Understanding Robust and 

Exploratory Data Analysis © 1983， John Wiley and Sons Inc。 


图 S,4 —系列 幂与根的转换 
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I 回归诊断简介 


第3节 I 通过转换矫正不对称 



一种针对回归中许多问题的常用有效方法是将数据进 
行转换，使它们更加符合线性模型的假设。在本章和其后的 
章节中，我将会介绍一些转化的方法，使误差呈对称分布、误 
差方差变得稳定，并使 x 与^之间变成线性关系。 

在上述每种情况下，我们将使用幂与根的形式，将变量^ 
进行替换(在这里暂时使用 >其后我们将同样对: r 进行转 
换），:/ = y 。一般来说，夕 =— 2、 一 1、 一 1/2、1/2、2或者 

3,但有时我们也使用其他的幂与根形式。需要注意的是， 
意味着没有进行转化。当幂为0时 ， y = 1，这意味着 
5的值是不变的。当我们使用 y = logy 这一形式时，通常使 
用2或10作为对数的底，因为对数不同底的转换只有一个 
常量因素的差别，我们可以选择便于解释的底。将对数转换 
的使用作为“零次幂”是合理的，因为 P 越接近0, /越接近 
对数形式(正规来说， lim ^ o[(y — l )/ p ] = log f y , 其中 
2.718, 为自然对数）。最后，对负的幂数来说，我们有/ = 
一 y ， 其值与同样级数的^值相反。 

当我们愈加偏离 P = 1的任意方向，这种转化愈加强烈， 
正如在图 5. 4中所示。这些转换中的某些影响在表 5. 1( a ) 
中可见。幂与根的转化“一点一点往上”时（这一词语来自 
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Tukey , 1977) ——即接近/——对于扩散）的较大值与 j 

的较小值有不同的 效果; 转化“一点一点往下”时——即接近 
logy 时——产生相反的效果。为了矫正一个正的偏态分布， 
如表 5. 1( b )， 需要向下 转换; 为了矫正应用中往往较少见的 
负的偏态分布，如表 5. 1( c ) ，则需要向上转换。 

表 5.1 通过幂转换矫正偏态 


(a) 中间的数字显示了幂转换的效果 


- ■ 

-l/y 

logio^ ♦ 

> — 

y 

y 

-1 

0 

1 

1 

1 

}1/2- 

}0, 30 

}1 

/3 

}7 

-1/2 

0. 30 

2 

4 

8 

}1/6 

)0. 18 

}1 

}5 

}19 

— 1/3 

0. 48 

3 

9 

27 

U/12 

}0. 12 

}1 

}7 

}37 

-1/4 

0, 60 

4 

16 

64 

}1/20 

}0. 10 

}1 


}61 

-1/5 

0. 70 

0 

25 

125 

(b) 向下进行幂转化以矫正正偏态，拉向右尾 






logiov 
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0 



. }9 


n 



10 


i 



}90 


}i 



100 


2 



}900 


}1 



1000 


3 


(C) 向上进行幂转化以矫正负偏态，拉向左尾 




: y 

— ► 

y 2 



1.000 





}0. 414 





1. 414 





}0. 318 





1. 732 





268 





2. 000 


■■■ 



注 n 行间的数字表示两个相邻数字间的差异。 






回归诊 醱 简介 


我假设所有数据值都是正的-项幂转化中必需的 

条件以保持阶数的存在。在实践中，通过加上一个很小的常 
量，负值便可以在进行转换之前被消除，这个小的常量往往 
被称为这一数据的“出发点”。同样，为了确保幂转换的效 
果，最大与最小数据值的比例必须足够的大，否则这种转换 
将与线性的非常接近。但如果比例较小，则可以用一个负的 
出发点来解决这个问题。 ^ 

在回归分析中，通过检验残差分布而发现的有偏误差分 
布，可以通过对因变量的转换进行矫正。尽管有更复杂的方 
法(参见第9章），但通过反复试错法，便可获得好的转换。 

有下界的因变量也会导致正向有偏分布，利用往下幂转 
换的效果往往非常好。然而当数据值在下限累积时，也称为 
“截断”或者“删节”(参见 Tobin , 1958)，幂转换便因此失去 

效果。同样，同时具有上下限的数据，例如比例和百分比，往 
往需要其他的解决方法。例如，通过 y = log[y ( 1 - >)] 进 
行 logit 或 “log odds ” 转换往往对比例很有效。 

在回归分析中，对变量的转化也引发了有关解释的问 
题。我将在第7章的末尾简短地处理这些问题。 



.輪:- 
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回归诊断简介 


第1节 I 寻 找不一 致的误差方差 




回归模型一直假设因变量的变异在回归平面附近，即误 
差方差在所有位置是一 样的： V ( e ) = I A ，… x ,) = a 2 0 
不一致的误差方差往往叫做“异方差性”。尽管在误差方差 
不一致的情况下，最小二乘估计量仍是无偏且一致的，但它 
的有效性会受到影响，而系数标准误的普通公式也是不准确 
的，而问题的严重性取决于误差方差不一致的程度。在本章 
中，我将叙述一些图形的方法以发现不一致的误差方差这一 
问题。对异方差性的检验将在第8章对离散数据的讨论和 
第9章最大似然估计法中涉及。 

因为回归平面是々维的，并嵌入在一个 A + 1的空间中, 
所以一般来说，若1大于1或2,就很难直接利用图示检验的 
方法评估误差方差的一致程度。然而，误差方差往往随着^ 
的期望值的增加而增加，或者误差方差和某一： T 之间可能存 
在系统性的关系。前一种情况可以通过对残差根据拟合值 
绘制散点图而发现，后一种情况则需要对残差根据每个 X 绘 
制散点图。需要注意的是，对残差根据 〆 与$相对的)绘制 
散点图往往比较困难。图形可能因此被扭 曲:在 ^与£之间 
具有嵌入的相关性，因为3^= 事实上，: y 与 e 之间的相 
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— 4. 5 


-4 


-10 


45 

拟合值 

( a ) 


100 


log , (拟合值 + 3) 
Cb ) 


注: （ a ) f 根据9。 （ b )/ 根据 log 2 (3+ $ ) 。对数转换降低了集合值的偏态，使 


得增加的残差更易辨别。 



关系数为 a = 相比之下，最小二乘拟合确保 

KJ , ^)=0, 从而获得一个更容易检查不一致分布的证据的 
散点图。 

因为即便误差具有一致的方差，最小二乘残差仍然具有 
不等的方差，因此我建议对学生残差根据拟合值绘制散点 
图。最后 ，一 个变化的分布模式往往在对 kl 或^根据 p 绘 
制的散点图中更容易被分辨岀来，并可能被 bwess 平滑散点 
图所增强(参见附录 7); 当样本规模非常大或者5的分布非 
常不均匀时，使这个散点图变得平滑就十分有用。图 6. 2就 
是 一 个例子。 

图 6. 1( a ) 是对学生残差对拟合值的解释性散点图。在 
图 6 . 1 (b) 中，学生残差是根据 log 2 (3+ SO 绘制的散点图。 
通过矫正$中正向偏斜的值，第二个散点图使分辨岀残差的 

分布随着5的增加而扩散这一趋势变得容易。这个例子的 
数据来自 Orn S tem (1976) 对加拿大248个大型企业连锁董事 



学生残差 


5 


o 


学生残差 


图 6.1 对 Ornstein 连锁董事会回归中的学生残差根据拟合值绘制的散点图 





I 回归诊断简介 


会的研究。将每个公司的连锁董事会和行政性职位数量根 
据公司资产进行平方根转换以使关系变为线性（参见第7 
章）; 代表10个行业分类的9个虚拟变量，并以重工业为参 
照类进行 回归; 3个代表4个国家的虚拟变量，并以加拿大作 
为参照类进行回归。表 6.1 中左边的列显示的是回归的结 
果。需要注意的是，残差的分布随着5而分散的原因，一部 
分是由于 y 的下界0,因为 e = y — Sn 对应某一的最小 
残差为 e = 0 — 5 = — 5。 
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第2节 I 矫正不一致的误差方差 


转换往往可以用于矫正误差方差随着因变量变大而增 
加(有时会减小)的 趋势: 如果残差随着拟合值分布范围变广 
而分散，则使^的幂与根向下转换;如果残差随着拟合值分 
布范围变广而紧缩，则使^的幂与根向上转换。通过反复试 
错法，可以选出适合的转换(选择一个方差稳定化的转换的 
方法参见第9章）。如果误差方差对某一个: c 是成比例的， 

或者如果的模式是已知的某一常数比例，则另一种对 


^的转换就是权重最小二乘估计 ( WLS )。 对于异方差性，也 
可以矫正最小二乘系数的估计标准误， White (1980) 提出一 
种方法，参见附录9。这种方法的优点在于不需要了解不一. 
致误差方差模式的信息（例如，方差随着^或 I 增大而增 
大)。但是如果异方差问题很严重，矫正后的标准误比一般 
公式获得的往往要大得多，如此，发现不一致方差的模式并 
矫正它(通过转换或 WLS 估计)将帮助获得更有效的估计。 
在任意情况下，只有当问题非常严重的时候，才会出现错误 


矫正不一致误差方差的情况，例如误差的方差的分布随着三 


个或三个以上的因素而变化(例如，误差方差随着10个或以 
上的因素而变化，参见附录10)。 


7 () 


I 回归诊断简介 


对 Ornstein 的连锁董事会回归，平方根转换似乎能够矫 
正残差随着因变量等级的升高而扩散这一依存关系。图 6. 2 


是对转换后的数据将 kl 根据义绘制的散点图。表 6. 1中 
右边的列是回归的结果。图 6. 2中 lowess 平滑后的结果显 
示，学生残差的平均绝对值并未随着拟合值的上升而发生 
变化。 


表 6.1 对 加拿大 284 个 企业的 连锁董 事会和 
行政人员数 ■根 据公司资产、所在部门和州进行的回归 


连锁董事会 v/MS* 事会 +1 


叫! a 四丁 

系数 

标准误 

系数 

标准误 

常数项 

4. 19 

1. 85 

2_ 33 

0, 231 

y 资产 

0. 252 

0- 019 

0. 0260 

0_ 00232 

行业 a 





农业、食品 

一 1‘ 20 

2‘ 04 

一 0. 0567 

0. 255 

轻工业 





冶金 

0. 342 

2,01 

0, 356 

0. 252 

木材、造纸 

5, 15 

2. 68 

0. 786 

0. 335 

建筑 

— 5. 13 

4. 70 

-0. 740 

0_ 588 

运输 

— ()• 381 

2. 82 

0. 354 

0, 353 

工商 

-0* 867 

2. 63 

0. 148 

0. 329 

银行 

-14. 4 

5. 58 

一 2. 25 

CL 697 

其他金融 

-5. 70 

2. 93 

-0. 0880 

0, 366 

控股公司 

一 2. 43 

4. 01 

— 0. 245 

0 . 502 

控制的国家 b 





美国 

_ 8. 09 

1. 48 

-L 11 

a 185 

英国 

-4* AA 

2. 65 

-0. 527 

0. 331 

其他 

— 1.16 

2. 66 

-0, 114 

0. 333 

R 2 

0. 655 


0, 580 



注: a . 虚拟变量的参照 类:重 工业。 
b . 参照类:加拿大。 

资料 来源: M , Omstein (个人联 系）; 这个数据同样被 Fox ( 1984) 所使用。 
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3-50 

学 
生 

残 

M 1 75 
的 
绝 
对 
值 

0,00 

1 6 11 

拟合值 

注 :图中 的线是 lowess 平滑，使用了 / =0.5 的二次稳健迭代。 

图 6. 2对学生残差的绝对值根据拟合值绘制的散点图 

表 6. 1中原始与转换后的回归系数并不能直接用来比 
较，因为因变量的度量被改变了。然而，公司资产仍明显呈 
现正效应，而控制的国家变量也保有其原先的排列。不同行 
业间的差别在这两个分析中也相类似，尽管并非完全一致。 
对两个结果的比较可以发现，这两组虚拟变量的参照类—— 
加拿大和重工业，被默认系数为0。 

将^进行转换也使误差分布的形状和对^根据 I 回归 
的形状被改变。通过转变产生一致的残差变异程度，也往往 
可以使残差的分布更对称。在某些情况下，消除了不一致的 
分布也使^与工之间的关系更接近线性(参见下一章）。然 
而，这些附产品不一定是矫正误差方差的结果，并且在对 y 
进行转换后检查数据的非线性也很重要。当然，由于我们无 
法在对3^进行转换之前就知道回归是否是线性的，因此我们 
应该在对 J 进行转换之前就检验非线性问题。 

最后，不一致的残差分布有时是因为忽略了模型中重要 
效应的证据。假设有一个被忽略的分类自变量（比如地区位 
置)与公司资产交互影响连锁企业，尤其是公司资产的斜率， 




I 回归诊断简介 


即便在每个地区都是正向的，但在某些地区也比其他的地区 


陡峭。那么即便矫正后的模型中误差有一致的分布，但若忽 
略了地区和其与公司资产的交互效应，则可能生成一个扇形 
的残差散点图。因此，为了发现这些特殊的误差，需要深入 
了解数据产生的过程，而不能简单地依靠诊断。 
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回归诊断简介 


任意处的 £( e ) 都等于0这一假设暗示着特定的回归平 
面能够涵盖 y 与之间的依存关系。违背这一线性假设将 
使模型无法捕捉因变量与自变量之间关系的系统性模式，例 
如某一被确认为线性的部分关系可能是非线性的，或者两个 
被确认为具有累加性偏效应的自变量可能是交互影响^的。 
但是，即便回归平面 EG ) 并没有被准确确认，拟合模型往往 
也是一种有用的近似。不过在其他情况下，这种模型可能有 
极大的误导作用。 

即便确认了回归因子只是很少数量的基本自变量组成 

的函数，回归平面也往往是高维的。因此，正如在不一致误 

■ 

差方差的情况下，需要关注偏离线性的特别模式。在本章 
中，图形的诊断方法用两维的图示代表观测的高维点云{%， 
々,，•••， 工丄 利用现代的电脑画图，此处的观点可以扩展至 
三维,例如对自变量间的二元交互进行相应的检测。 
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第1节 I 残差与偏残差散点图 




尽管在多元回归中对^根据每个 x 绘制散点图是非常 
有效的，但是这个散点图并不能涵盖全部的情况(有时可能 
会误导），因为我们的兴趣聚焦于在控制了所有其他的 I 后， 
y 与 x 之间的偏相关关系，而不是 > 与单一 x 之间的边际关 
系。基于残差的散点图在这种情况下则更加适合。 

将残差或者学生残差根据每个: r 绘制散点图(可能会被 
lowess 平滑而增强，参见附录7)，对于探寻对线性的偏离非 
常有效。正如图 7.1 所示，残差散点图不能区分单调（如严 
格的增加或减小)和非单调(如有升有降)的非线性关系。残 
差散点图之所以不能捕捉单调与非单调非线性关系之间的 
区别，原因在于最小二乘拟合确保了残差与每个 I 之间线性 
的非相关。然而这种区分是非常重要的，正如下面即将讨论 
的，因为单调的非线性往往可以被简单地转换而矫正。如在 
图 7.1 中，案例 ( a ) 可以由: y = (3 b + ftx 2 +e 建模，而案例 ( b ) 
无法利用对 I 的幂转换而变成线性的，而需要一个多项式的 
重新确认来进行 处理： 

y = +^x+^x z +e 

然而案例 ( b ) 也可以通过对 x 转换而进行调整 ：^= ft + pi ( x - 
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a ) + £, 但在此，我不对这种方法进行讨论。 







X 

( a ) 


( b ) 






注 :残差 的散点图并没有分辨出非线性但单调的关系与非线性非单调的 
关系。 


图 7.1 简单回归的散点图 （ a) 和图 （ b ) 与相应的残差散点图 (a'l 与图 （ 1/ 


与简单的残差散点图相比，后文将介绍的用于寻找强影 
响数据的偏回归散点图，可以用来揭示非线性并判别关系是 
不是单调的。这些散点图对于确定一个转换并不一定永远 
有效，但是偏回归散点图将&根据其他工进行调整，未经调 
整的 X ,则被转换以重新确定模型。偏残差散点图，也称做 
“分量一残差散点图”，往往是另一种有效的方法。但是在检 
验影响力与影响程度方面，偏残差散点图并不如偏回归散点 
图有效。 

定义第 J 个回归因子的偏残 差为： 

™ €j bjX } i 


用文字解释为，将 3； 与 x , 的偏相关关系线性分量加回到最小 



后将/9根据 X ,绘制散点图。通过建构，使多元回归的系数 

b , 成为对根据 A 进行简单回归的斜率，但是非线性也同 
样可以在这个散点图中显现，而 lowess 平滑法也可以帮助解 

释这个散点图。 
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6 11 16 0 15 000 30000 0 50 100 

平均教育水平 平均收入 女性比例 

( a ) ( b ) ( c ) 

注:每 个点都附有观测值的索引。在每个图中，都显示了最小二乘拟合（虚 
线)和 bwess 平滑(实线，/= 0. 5. 进行了二次稳健迭代）。 

资料 来源: B . BHshen ， W . Carroll C . Moore (个人联 系）； 加拿大人口普查 

(加拿大统计年鉴，1971: 19. 1—19.21)； Pineo ^ PorterC 1967) 。 


图 7. 2 中的偏残差散点图是针对将 1971 年 102 个加拿大 
职业的声望 ( P )， 根据平均教育年限 ( E ) 和平均收人水平 （ D , 
以及女性在此职业中的百分比 ( W ) 进行的回归 （Pineo Por ¬ 
ter , 1967; 相关的结果参见 Fox &- Suschnigg , 1989 ； Duncan 

对类似的美国数据所做的回归）。在每个散点图中都进行了 
lowess 平滑。回归的结果 如下： 

P = —6. 79 + 4. 19£ 十 0. 0013N —0. 00891W 
(3. 24) (0. 39) (0.00028) (0. 0304) 

R 2 = 0. 80 5 = 7. 85 

需要注意的是，回归系数的大小不应被用来进行比较，因为 
自变量的测量单位不同，尤其是收入的单位非常小（美元）， 
而教育的单位则相对较大(年限）。我们应该根据每个相应 
的自变量的单位来解释回归系数。在这个例子中，教育与收 
人的系数都相对较大，而女性比例的系数则非常小。 



偏残差 0^ 



偏残差 


图 7.2 对1971年加拿大102个职业的声望评分根据职业特征，以教育、 

收入和女性比例进行回归获得的偏残差散点图 
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教育的偏残差散点图是明显的单调非线性，而收入则更 
加明显，见图 7. 2( a ) 与图 7. 2( b )。 当加入教育与收人水平 
时，具有中等教育水平的女性的职业具有较低的职业声望这 
一 趋势则没有那么明显，见图 7.2( c )。 就我而言，在没有经 
过 lowess 平滑之前，对教育和女性比例的偏残差散点图的趋 
势和模式都难以判断，因为对线性的偏离并不严重。收入与 

女性比例的非线性模式非常 简单: 对前者而言， lowess 曲线 

-■ — ■ 

是向下开 口的; 对后者而言，则向上开口。然而对教育而言， 
弯曲的方向发生了变化，构成了一个更加复杂的非线性 
模式。 

Mallows (1986) 指出，偏残差方差的散点图往往能够更 
清晰地揭示非线性。首先，对模型加入一个多项式使其 
变为： 

% = Po + Pi 工 U + …+ ^ji + yx 2 H -\ - h + Zi 

然后，在拟合完模型后，构造“加强”偏 残差： 

/(；) I « 2 

e / = e { + bjXji + 

请注意，此处的对 X ,的回归系数6,与原先模型是不同的，因 
为原模型并没有包括平方项。最后，对 e ' w 根据巧绘制散 
点图。 
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第2节 


进行线性转换 




搬 ^ 》 m..v ㈣ 


通过观察图 7. 3, 我们可以考虑幂转换是如何使一个单 
调的非线性关系线性化的。这里，我们根据 ： r= 1， 2, 3, 4, 
5 对: y = (l/5)x 2 绘制散点图。通过建构让 ：y = (l/5)x 中的 

x' =x 2 , 则可以使关系变得线性化，或者在 3 /= /TT^r 中使 

y =斤。图 7. 3展示了每个转换是如何对其中某一个轴进 
行不同的伸展，从而使曲线变成一条直线的。 

正如图 7. 4 所示 ，一 共有四种简单的单调非线性模式。 
每一种都可以通过对工或者两者同时在幂与根进行向上 
和向下转换，曲度的方向决定了在幂与根方向上的移动。 
Tukey(1977) 将这称做“撑压法则”。反复试错法可以帮助找 

岀最合适的线性转换方法。 



图 7.3 对 j ( a 到 b ) 和 x ( a 到 cl 的转换如何使 
一个简 单的单调非线性关系线性化 
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I 向下 . 

log X t — 1/x 


少向上 






向上 

JC 2 ,^ 


f 

少向下 
logy —1/y 


资料来源： Tukey ，Exploratory Data Analysis ® 1977 ， Addison -Wesley 

Publishing Co 0 

图 7. 4 通过“撑压法则"确定一个对线性的转换 


在多元回归中，撑压法则可用于偏残差散点图中。一般 
来讲，我们倾向于对 a 而非^进行转换，因为改变对^的度 
量将影响它与其他回归因子之间的关系以及对^进行转换 
将改变误差的分布。而唯一的例外只出现在所有的偏残差 
散点图中，所有非线性模式都类似的情况下。此外， bgit 转 
换往往在因变量为比例的情况下有效。 

与在图 7.1( b ) 中所显示的一样，非单调非线性（以及一 
些复杂的单调模式)可以通过对: r 进行多项式拟合来解决， 
二次方确认在应用中往往非常有效。只要模型对参数来说 
还是线性的，那么它就可以用最小二乘回归来进行拟合。 

对加拿大职业声望数据进行反复试错法可以得出对收 
人的对数转换。职业声望与妇女比例之间的曲线偏关系建 
议我们应当使这个自变量包含线性项与二次项。这些改变 
对于模型的拟合产生了适度(但可识别）的 改进： 

P =-111 + 3. 77 E +9. 36 log 2 /-0. 139 W + 0. 00215 W 2 

(15) (0.35) (1.30) (0.087) (0.00094) 

R 2 = 0. 84 5 = 6. 95 
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需要注意，妇女比例的二次项具统计显著性。这个变量的偏 
效应相对较小，但是其范围包括当职业的女性比例为32% 
时，最小声望分 数的一 2 . 2 到假设的职业的女性比例为 
100 %时，声望分数的 7. 6 。因为教育的偏残差散点图的非 
线性模式是复杂的，对这个因变量的幂转化将不会有效。 
通过反复试错法，我们知道将教育取平方也只能将 i ? 2 增加 


到 0 . 85 


o 


在对数据进行转换或者重新确定模型的函数形式时，需 
要对实际情况与建模进行交互的考虑。然而我们必须认识 
到，社会理论往往并非数学化那样具体，因为理论告诉我们， 
声望应该随着收入上升，但是它并不能确认这个关系的函数 
形式。 


然而在某些情况下，一些转换对于结果的解释具有促进 
作用。例如，对数转换往往可以获得有意义的 解释: bg 2 x 增 
加 1 ，则导致: c 翻倍。因此，在重新确认的加拿大职业声望回 
归中，当使教育和性别构成保持不变时，收入的翻倍将导致 
职业声望9分的增长。 

与之类似，面积的平方根或体积的立方根可以被解释为 
距离或长度的线性测量，跨越一段距离所需时间的倒数则为 
速度等。如果^与 A 都进行了对数转换，则¥回归系数可 
以解释为3；对^的弹性，也就是说，的改变将对应 3 ;改 
变的百分比。在很多情况下，二次方的关系将清晰而有效地 
解释力度（例如，性别比例适中的职业对声望没有什么影 
响），但是四阶的多项式则可能不会。 

最后，尽管保持简单性与可解释性很重要，但是没有必 
要因为坚持用一个明显不适合的函数形式而改变数据。在 
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任何情况下， y 与 X 的拟合关系可用图示或表格表示出来(如 
果它们经过转换，则使用变量原始的度量），或者可以描述某 
一些策略性的 X 值上的效应(例如，上述有关女性比例对职 
业声望的偏效应的简短描述）。 
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o ooooooooo 



10 15 

教育年限 

(a) 


20 


1 0 


- 7 - 


0 


10 15 

教育年限 

( b ) 


20 


注:散 点图中显示了最小二乘回归直线。 

图 8.1 对词汇分数根据教育年限的散点图与残差散点图 

图 8. 1( a ) 中的散点图与我们的印象一致，随着教育程度 
的上升，词汇水平也上升。然而这个散点图很难读懂，因为 
968个数据点人多是一个叠加在一个上面的。图中也包括最 


10 


o 


ooooooooo 


离散的自变量与因变量往往产生难以解释的散点图。 
图 8. 1就是这一现象的简单例子，其中的数据来自1989年 
由国家民意研究中心进行的社会概况调査。自变量——教 
育年限是从 0-20 进行编码的，因变量是在一个10个题目 
的词汇测试中，答对题目的数量。需要注意，这个变量是一 
个变相的比例——事实上变量是答对的比例 X 10。 



词汇分数 
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小二乘回归线，其方 程为： 

V = 1.13 + 0. 374 E 
(0. 28) (0. 021) 

R 2 = 0. 248 5 = 1. 92 

其中 V 与 E 分别是词汇分数与教育程度。 

图 8.1( b ) 是拟合方程中的残差根据教育程度的散点图。这 
个图的左下角到右上角的对角线是离散因变量的典型特 征:对 
于: y 的每 一 个个另！1值，例如 ，: y = 5, 残差为 e = 5 — 6 。一 = 
3. 87-0.374x, 是对 o ： 的线性函数。我注意到，当: y 具有一个既 
定的最小值时，残差根据拟合值作图可以获得一个与第6章类 
似的现象。从左下角到右上角的对角线是由于: c 的离散性。 

图 8.1( b ) 显示，对教育这一变量而言，相对于中间值的最 
大值和最小值都具有较小的残差方差。这一观测的模式与观 
察到的因变量是一个假比例这一现象一 致:当 回答正确的平 
均数量接近0或10时，词汇分数的潜在变异将降低。然而在 
这一明显的下降趋势中，部分的原因在于，当接近教育度量的 
上下限时,数据相对较为分散。我们之所以关注残差值的范 
围，原因在于我们无法观察到大多数的数据点，而且即便方差 
是恒定的，这一范围也随着数据量的增加而扩大。 

图 8. 2显示了相关的状况，其中每一个数据点都可以水 
平和垂直地“抖动”，尤其是在每个教育和词汇的分数上加上 
一个在区间 [一 1/2, 1/2] 的一致随机变量。这种对离散数据 

绘制散点图的方法是由 Chambers 、 Cleveland 、 Kleiner 和 
Tukey 提出的（1983)。这个散点图同样显示出对原始数据 
的拟合回归直线，也包括在每个教育的值上振动的词汇分数 
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-1 10 21 

教育年限 

注: 对横纵坐标都加上了一个很小的随机量。虚线是对没有抖动数据拟合 
的最小二乘回归直线。实线是对抖动的词汇分数绘制的中位数和分位 
数的轨迹。 

图 8. 2对词汇分数根据教育年限的“抖动"散点图 


的分布上，穿越中位数、第一和第三分位点的直线。我排除 
了距离中位数与分位点低于6的教育值，因为这些数据在这 
个区域中太过分散。 

图 8. 2有很多特点值得关注:（1)从抖动的数据中,我们可 
以看到观测在教育为12年(对应高中毕业)时尤其 密集; (2) 中 
位数的轨迹与最小二乘回归直线最为 接近; ⑶分位点的描记线 
显示出 y 的扩散程度并没有在教育程度的较大值处降低。 

因变量是离散的，违背了回归模型中误差是正态分布且 
具有一致方差的假设。这个问题与受限因变量一样，只在极 
端的情况下才会出现。例如，当只有很少的回答类型时，或 
者很大一部分的观测值包含在很小数目的类别中且取决于 
自变量的值之时。 
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相比之下，离散的自变量与回归模型完全一致，因为回 
归模型除了假设工与误差不相关之外没有别的对分布的要 
求。事实上，一个离散的 X 往往可以直接对非线性进行假设 
检验，这叫做对“失拟”的检验。同样，对一个离散的自变量 
的每个类别进行非一致误差方差的检验也相对简单。 
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第1节 I 检验非线性 



例如，假设我们将教育转化为一系列虚拟的回归因子进 
行建模，而非确认词汇分数与教育之间的线性关系。尽管有 
从0到20 —共有21个教育程度的值，但样本中的个体没有 
一个是具有2年教育水平的，这使我们一共有20个类别和 
19个虚拟回归因子，则方程 变为： 


表 8.1 词汇测试分数不同的分析 


出 处 

df 

平方和 

均方 

F 

p 

« 

教育(方程 8. 1) 

19 

1262. 0 

66.40 

18.1 

錢 0001 

线性(方程 8.2) 

1 

1175.0 

1175.0 

320.0 

«0* 0001 

非性线(“拟合不足”） 

18 

86.58 

4. 810 

1.31 

0, 17 

误差(“纯误差”） 

948 

3473. 0 

3.663 



总计 

967 

4735. 0 





资料来源 :1989 年社会概况调查，国家民意 调査中 心。 


yi = 7o + 7id u + + 7i9<ii9,. + [8. 1_ 

将这个方程与下面方程 相比： 

y t = po + pi 工 i + $ [8. 2] 

便可以生成一个对非线性的检验，因为方程 8. 2 中确认的线 
性关系是方程 8. 1中的特例，方程 8. 1包含了所有 EO ) 与 x 
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之间关系的模式。获得的对非线性的增量 F 检验显示在表 
8.1 的方差分析中。因此我们清楚，在词汇与教育之间有明 
显的线性关系，而没有证据显示具有非线性。 


在多元回归模型中，对非线性的 F 检验很容易扩展至离 


散自变量，假如这个变量为这里，我们将较普通的模型， 


J = 7。+ A + …+ K 9 -\ d q -x + Pzx 2 + …+ (3#* 十 e 

与确认了力线性效应的模型 比较： 


y = + PiJ：i + j 32 X 2 + ••• + +e 

其中，本，…，屿-:是构建来表示 A 的个类别的虚拟回归 
因子。 




I 回归诊断简介 


第2节 I 检验不一致误差方差 



一个离散的工(或几个 x 的组合）将数据分成 g 组。令 
%代表在第〖个组中％个因变量分数中的第 ） 个。如果误 
差方差是一致的，则组内的方差估计量 

2 ~y,y 

s 2 = ^ _ 

J n, — 1 

应该是类似的。其中，兑是第 z 个组的均值。当误差是非正 

态分布时，直接针对4的检验将不再具有有效性，例如 Bart - 
lett (1937) 常用的检验。 

因而，许多替代的检验法被提岀。在大规模的仿真研究 
中， Conover ， Johnson 等人 （1981) 证明了下面的 F 检验是稳 

健和有 力的: 计算％ = I / I 的值，其中 W 是第/组 

中 J 的中位数。其后对变量 z 的9个组进行单一变量方差分 
析。如果误差方差在组间是不一致的，则组均值 A 将有所不 
同，从而产生一个很大的 F 检验统计值。例如对词汇数据， 
教育水平将全部968个观测分为 g = 20个组，这个检验得出 
F 19 . 948 = 1. 48, p - 0.08,并没有产生不一致分布的明显 
证据。 
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I 回归诊断筒介 


本章介绍的方法都基于最大似然估计法（参见 Fox , 
1984; Wonnacott &• Wonnacott , 1990:第 18章）。这些方法 

的逻辑比前几章介绍的类似的特定步骤更为复杂，但是应用 
起来同样很直接。因此，本章的内容对相对没有受到精妙统 
计理论限制的数据分析者来说，也应该非常有效。 

对 x 或: y 转换的选择，一种统计上更复杂的方法是将普通 
的多元回归模型嵌入一个包含针对转换参数的更一般模型中。 
如果有好几个变量需要被转换，或者转换非常复杂，则需要有好 
几个类似的参数。而这一类型的模型本质是非线性的。 

假设转换可以由单一参数 X 表示，其后我们记下包含转 
换参数和普通回归参数的函数形式的模型似 然性： L ( X , (3 o , 
氏，…，氏， cr 2 )。 使似然值最大化将获得 X 的最大似然估计 



计分检验 



Wald 检验 


LR 检验 


图9,1似然比对假设的 

WaJd 和计分检验 


( MLE ) 以及其他参数的最 
大似然估计。现在，我们令 
入=&，代表没有进行转换 
(例如& = 1表示幂转换 
y ); H , 的似然比检验：入= 
u 用以评估转换是否需要。 

正如图 9. 1中所示，似 
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然比检验比较 mle £ 的对数似然值和零假设值 Xo : 如果 
log e L (£) 比 log^L ( Xo ) 大很多， H 。 将被拒绝，则我们可以获得 
结论——需要进行转换。如图 9.1 中所示的替代检验就是 
基于£与&之间距离的 Wald 检验;计分检验(也称做“朗格 

朗曰乘数递增检验”)则基于 Xo 处似然对数的斜率-个 

对 H 。 产生质疑的陡峭斜率，因为在最大处（即当 X = £时) 

的对数似然是平坦的。对于二次项的对数似然值，这三个检 

_ ■ ■ __ 

验是相同的，但是在更一般的时候不是，尽管在实 践中， 它们 
往往产生类似的值并具有渐近(大样本)的特质。 

似然比率与 Wald 检验的优点在于它们需要找到 MLE ， 

而这往往需要迭代(一个不断近似的重复过程）。相比之下， 
在 X 。处， lo # 的斜率往往不需要迭代就可以被估计或者近 
似。计分检验可以构造成对一个新回归因子的 t 统计量，称 
做“构造变量”，然后将其加入回归模型。此外，对构造变量 
的偏回归散点图能够揭示一个或者一部分观测是否会产生 
严重的影响、是否进行转换，或者是否要对整个数据进行 
转换。 
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回归诊断简介 



第1节 I J 



Box-Cox 



Box 与 Cox 建议对 y 进行幂转换以使误差呈正态分布， 
使误差方差变稳定并使7与 x 之间的关系变为线性。一般 
的模 型为： 

yl x) = Po +|3iXiH - h + £,• 

ei 〜 NID (0, a 2 ) 

其中， 

^ — 1 

}og,yi(X = 0 ) 

其中，所有的: Vi 都是正的。对某一选定的 X ， Box 与 Cox 证 
明条件的最大化对数似然 值为： 

logeL((3o, 氏， … ， p* ， a 2 U) =—y(l + log,27r) —ylog,5 2 (X) 

+ ( X — l )2 lo g ^* 

i = l 

其中， / ex ) = i ；4 o > ，且如.是对根据工进行最小二 

乘线性回归得到的残差。寻找 MLEX 的一个简单步骤就是 
评估某一段 X 值(例如在一2到+2之间）的最大 log 上。如果 
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-825 — 


835 


1 r 


0 . 


a 


i 1 

0.6 


注:在 Box - Cox 模型中作为对参数 X 转换函数的条件最大似然对数。图上方 
水平线与似然对数的交叉组成了 X 的95%置信区间。 

图 9. 2対 Omstein 的连锁董事会回归 


Atkinson(1985) 针对 Box-Cox 模型提出了一个近似的计 


分检验，这一检验基于构造变量 G , 


yi X [log,( ： y,/50 — 1 ]， 


其中5是: y 的几何平均数，夕 = (M X ： y 2 X … Xy„) l/n 0 这一 


结果显示这段区间没有包括似然对数的最大值，则需要扩大 
这段区间。检验 H。：X = 1，则需要计算似然比检验统 计量: 

Gq = — 2 X ^ log 上 ( X = 1 ) — log 上 ( X = X ) _ 

在 H 。 情况下是分布。对 X 的95 %置信区间包括那些符 
合 logXU )> log ^ a = X )- 1/2 X 1.96 2 的值，其中 1.96 2 

= Xu 0.05 。图 9. 2显示的是针对 Ornstein 连锁企业董事会回 

归所做的、针对 X 的最大似然对数的散点图。 X 的最大似然 
估计是 X = 0. 30,而95%的置信区间则从 0. 20到 0. 41，图 

中在接近似然对数处用交叉线标示出来（在第6章中，我们 
对这一数据使用了平方根转换以使误差方差稳定化)。 


-815 - 





最大似然数 
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I 回归诊断简介 


构造变量是通过对在 X = 1 处的 Box-Cox 转换 y ” 的线性近 
似获得的。扩展方 程为： 

^ ~ + …+ + <pG t + ti 

对 H 。 ： (p = 0 的 f 检验即 r 0 = 9 /SE($ ) ， 并通过此来评估是 
否需要进行转换。对 X 的估计(尽管不是 MLE ) 为 X = 1- 
$，而对 G 的偏回归散点图则表示了对$的影响，以及对入 
的选择。 

图 9. 3 是对连锁企业董事会回归的 Atkinson 构造变量 
散点图。尽管图中的趋势并非始终为线性，但可以看出，对^ 
的转换是需要在整个数据中进行的，且并非源于一小部分影 
响力很大的观测。构造变量的回归系数为$ = 0.588 且 
SE($) = 0.032, 强烈地表明需要对 j 进行转换。而建议的 
转换 X = 1 一 0. 588 = 0. 412 与 MLE 非常接近。 

35 

连 

^ 0 


-35 

-45 15 75 

建构变量 

注：图 中每个点都标有观测索引。最小二乘（虚线）和 lowess 回归（实线）均 
显示在图中。 

图 9. 3对 Ornstein 连锁董亊会回归的 Box - Cox 转换的建构变董散点图 
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第 2 节 | 对 jc 的 Box-Tidwell 转换 


现在我们考虑如下 模型： 

兄 = 3o - h y &i + e t - 

e! 〜 NID(0, a 2 ) 


在假设模型中，所有％都是正的，则这个模型中的参数，氏， 


ft 


* _ » 


，氏 和 h ， …， h 可以与 a 2 —起，通过一般非线性最小 


二乘模型（参见 Gallant , 1975) 估计出来，但是 Box 与 Tid 
well (1962) 提出一种更有效的步骤来进行构造变量的 诊断： 


第一，将: y 根据工1，…， A 进行回归，得到，…，6*。 

第二，将: y 根据 A ，…， j ： a 与构造变量 XTlog ^ ，…， 
x k log ^^ 进行回归，得到 KM ，…，6:与必，…，4。注 
意，由于在第二个回归中加入了构造变量 ，一 般来讲 b 关 
’ b 〜。 正如在 Box-Cox 模型中，构造变量是在 y ~ 1处对 jr ; Y 
的线性近似得到的。 

第三，根据对假设 H 0 ：8 j = 0的检验，构造变量 
x } log ^) 可用于评估是否需要对召进行转换，其中 《是第 
二个回 归中: 的整体系数。构造变量的偏回归散点 
图对于评价对 x 进行转换的影响力与影响程度非常有效。 

第四，对％的估计可以通过无=1+名/卜获得 。卜 
可以通过第一步回归获得。 
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I 回归诊断简介 


可以通过重复进行第一、第二和第四步来完成这一程序，直 
到对转换参数的估计值稳定下来，获得 MLE 的$。 

对于加拿大的职业声望数据，保持女性比例这一变量不 
变 ( W 与 W 2 ) ，则在辅助回归中， Hog 上与 Zlogj 的系数分别 
为办= 5. 30且 SE (< i E ) = 2. 20,而 c // =_0. 00243且 SE ( rf /) = 

0. 00046。这一结果表明，相对于教育，我们更需要对收入进 
行转换。回顾第7章我们发现，对教育的幂转换并非十分合 
适。转换参数的第一步估 计为： 

y E = 1 + cl E / b E = 1 +5. 30/4. 26 = 2. 2 
= 1 + dt/bj = 1—0. 00243/0. 00127 0. 91 

对转换参数进行完全的 MLE 迭代，得到 h 二2.2且1 = 
一 0. 038。将这一结果与第7章中通过反复试错法得岀的平 
方与对数转换相比较。从图 9. 4中对转换的教育与收入的 
构造变量散点图可以看出转换大体上是必要的，尽管在收人 
的散点图上有一些高影响力的观测值。 



注 :每个 点都标有观测索引。最小二乘（虚线）和 lowess 回归（实线）均显示 
在图中。 

图 9. 4在加拿大职业声望回归中，对教宵和 
收入进行 Box - Tidwell 转换后的建构变置散点图 
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第 3 节 I 对不一致误差方差的矫正 



对于异方差问题， Breusch 与 Pagan (19 7 9)提出了一种计 
分检验，它基于确认误差方差与已知变量 A ，…，％相关而 
获得，并且可以建 模为： 

a ■ = VUi) = g(y 0 +7\Zi H - h y p z pi ) 

其中，函数 • )非常普通，而类似的检验也由 Cook 与 
Weisberg (1983) 独立提出。对于 a 2 恒定的这 一 假设(与 H 0: 
7l =…=I = 0等同）的计分检验，可以转换成一个辅助回 
归的问题。 

令椒= ijr , 其中 P 是对误差方差的 

MLE (注意除数为 n 而不是自由度 n — A — 1) ，％为一种标准 
化残差的平方。将 w 根据 z 进行 回归： 

Wi= ao+ai 之 1, ‘一 h .•• + 0[ 户之 > + co; [9.1] 

Breusch 和 Pagan 证明了计分统计量 S 2 = D d — S ) 2 /2 在 

=乂时近似服从 Z 分布。这里， L 是将 u 根据 z 进 
行回归而获得的拟合值，而 S 2 则为根据拟合方程9, 1获得 
的回归平方和的 一半。 

在应用中，当然需要选择^而这种选择则基于对不一致 
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I 固归诊断简介 


误差方差模式的预估。如果预估了好几种模式，则需要进行 
多个计分检验。例如，在辅助回归方程 9.1 中使用々，•••， 
^，则允许在主要回归中发现误差方差随着一个或一个以上 

自变量的增加而增加这一趋势。 

与之类似， Cook 与 Weisberg (1983) 提出了将 w 根据从 

主要回归中获得的拟合值进行回归，从而得到一个自由度为 

1的计分检验，用以探测误差方差随着因变量增大而增加的 

■- — 

一般趋势。当事实上误差方差正符合这一模式时，与更一般 
的对 w 根据: c 进行回归的结果相比，对 W 根据^进行辅助回 
归将获得更有效的检验。 Anscombe 提出了一个类似(但更 
复杂)的步骤，他建议利用将 J 转换为来矫正已发现的异 
方差，其中 X = 1 — 1/2 H 

最后， Whit e (1980) 提出了一个类似的计分检验法，这种 
方法基于将他自己提出的系数抽样方差的异方差矫正估计 
量(参见第6章与附录 9) 与一般的系数方差估计量进行的比 
较。如果两个估计量差异很大，则需要对一致误差方差这一 
假设提出怀疑。 White 的检验可以作为对从主要回归中获得 

的残差平方进行的辅助回归，即对/根据所有的 x 及其平方 
和它们之间的两两组合。这样，对于包含两个自变量的主要 
回归，我们可以拟合模 型为： 

e) = So + Si -^li + §2 X zi + 83 JOu + §4 X Zi + Sb iX 2i + Vi 

一 般来说，除了常数项之外，辅助回归中还有/ > = &a + 3)/2 
个项。 

检验零假设(一致的误差方差）的计分统计量为 S 2 = 
vR \ 其中把是辅助回归中复相关系数的平方。在零假设成 
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第 9 章最大 似然法、计分检驗和构 造变量 

h 

I 

立的情况下， S 2 服从自由度为/>的近似 X 2 分布。 

由于所有计分检验都很容易违背除了一致误差方差之 

外的回归的其他假设，因此在实践中应该利用图示来辅助这 
些检验 (Cook & Weisberg ， 1983)。当存在多个 z 时，一个简 

单的诊断则为对 W 根据义绘制散点图， I 是辅助回归中的 
拟合值。当将 t 简单地根据 A 进行回归，则获得的散点图 

与第6章中提到的根据拟合值对学生残差进行回归获得的 

- 

散点图非常相似。 

根据 Ornstein 的连锁企业董事会数据，对 m 根据5；进行 
的辅助回归将得到 S = 0,134 + 0.0594$，以及一个自由度 
下的 S 2 = 147. 6/2 = 73. 8。因此，有非常有力的证据显示误 
差方差是不一致的。利用 Anscombe 的方法进行误差稳定化 
的转换为 X = 1 —1/2(0. 0594)(14.81) = 0. 56 0 将这个值与 
Box - Cox 模型 d =0. 3)、反复试错法 （X = 0.5, 见第6章) 
获得的值进行比较。 

对 m 根据主要回归中的自变量进行的辅助回归，可以得 
到在自由度为 A = 13时, S 2 = 172. 6/2 = 86.3, 这也同样为 

误差方差不一致提供了有力的证据。检验辅助回归的系数 
可以发现，随着公司资产的增大，误差方差随之将增加这一 
趋势。然而需要注意的是，对于更一般的检验，计分统计量 
与对 m 根据进行回归获得的结果相差不大，这表明，不一 
致误差方差的模式的确是方差的分布随着^的增大而扩散。 
公司资产当然是5的一个重要组成部分。因为 White 的检 
验需要104个回归因子，因此在此并不列出。 
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回归诊 断简介 


1. 在进行复杂的统计分析之前，先过滤你的数据。检验 
单一变量分布和双变量散点图尽管并不能取代本书中提供 
的方法，但可以揭示出类似奇异数据值、高度偏斜的分布、极 
端的非线性等等。如果数据集很小，则可考虑自己将数据输 
人电脑。 一 般来说，着手处理数据不要犹豫。 

2. 当然需要利用一小部分简单稳健、信息量较足的诊断 
方法，而对需要用更复杂方法才能揭示出的问题，必须追査 
到底。下面对常见诊断方法的选择建议非常有用。 

(1) 共 线性: 尽管共线性对于个体层面的截面数据并不 
是一个严重的问题(对于汇总或追踪数据则更常见），但可以 
简单地通过计算方差膨胀因子进行诊断。 

(2) 强影响数据、奇异值与非正态:除非是总体不准确的 
数据(例如，将缺失值编码为有效数据），与较大的数据集相 
比，强影响数据往往出现在较小的数据集中。一个对学生残 
差根据预测值绘制的散点图就是一个很好的诊断，因为我提 
及的所有的影响程度统计量都或多或少取决于相关的值。 
Cook 的 D 的索引散点图为回归系数的影响程度提供了一个 
概括性的测量。偏回归散点图对于显示对单一系数的影响力 
与影响程度非常有效，并且可能揭示出一些强影响的观测子 
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集，而这在单一观测删除统计量中则无法实现。学生残差的 
正态分位数比较散点图则可以揭示出奇异值以及偏斜与重尾 
分布。茎叶图、直方图或者学生残差的平滑直方图则可以显 
示出残差分布的形状，并可能揭示出多路方式这样的问题。 

(3) 非线性 :如果 在偏回归散点图中显示出了非线性，那 
么在偏残差散点图中这一趋势将更加明显。因为后者非常 
容易构建，所以可以经常使用。 

(4) 不一致误差方差 :对学 生残差根据拟合值绘制的散 
点图将会揭示误差方差随着^的等级而改变这一趋势，而这 
也是这一类型问题中的典型。 

3. 如果可以的话，尽量使用平滑的方法(如 lowess 平滑散 

点图)以揭示出数据的模式。尽管诊断的技术往往只是指示大 
体的方向而不是细节的问题，但有时也可以弥补我们感知到的 
一 些不存在的视觉模式，并帮助我们分离出一些视觉的 干扰。 

4. 尽量避免“过度拟合”这一陷阱(例如，对统计模型进 
行修改以捕捉数据中的偶然特征）。数据分析的部分艺术就 
在于判断如何根据数据进行调试。一个极端情况是，一些人 
忽略了数据中无法预知的模式来对教科书进行模仿以获得 
“客观”的统计分析，而这就要求模型是事先被确定好的。而 
另一极端则是，那些诊断技术的初学者往往删除了大部分数 
据，或者不停地对数据进行转换以获得微小的“较好”拟合。 

图 10.1 讽剌了对不一致数据的拋弃。我在此必须指 
出，对所有的数据勉强拟合出一条直线，比删除那些令人恼 
怒的数据点更糟糕。当然，最好是能够理解这部分不一致的 • 
数据与其余数据有什么不同。 



I 回归诊断简介 



资料来 源:获 得大学联合会政治和社会研究暑期课程授予的重新印刷权利. 

1990年。 

图 10.1 行动中的回归诊断 

尽管对“确认搜索”（即通过检验数据而选择统计模型) 
的正规统计分析是非常复杂的(参见 Learner , 1978)，但是通 
过交互效度来评估模型的完备性是可行的 （Mosteller & 
Tukey , 1977)。为了使结果具有交互效度，我们首先将样本 
随机分为两个部分(并不一定要求分成同等规模）。一个子 
样本用来根据数据选择一个模型，然后利用另一半数据来测 
量这一模型的效度。当根据数据选择回归中的一部分自变 
量时，或当使用转换以应对非线性问题时，这一方法尤为有 
效。交互效度对于奇异与强影响数据并没有直接的作用，这 
些问题都是基于个体数据，而不是两个子数据而产生的。 

交互效度要求的将样本分开，但研究者往往不愿意这样 
做，因为他们对于样本规模对估计精度的影响以及统计检验 
力度的影响非常敏感。但是，当数据的一部分用来选择模 
型，另一部分用于估计参数时，估计的精度是不切实际的，至 
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少一部分是这样。然而，在我看来更糟糕的是，避免检验一 
个最先确认的模型的完备性，只是简单地为了保护经典的估 
计和检验“不受污染”。 

正如上文提到的，删除奇异和强影响值并不能赋予数据 
交互效度。但是，在此之后对抽样方差的估计则是趋近最优 
的。然而，如果用于拒绝奇异和强影响数据的法则可以被精 

确地说明，那么可以在这之后对抽样方差进行估计（参见 

■ -■ _ 

Diaconis &. Efron , 1983; Stein , 1965) 0 

5. 考虑数据的抽样特征。基于复杂的抽样设计获得的 
数据往往与观测有不可忽略的依赖关系（例如 Kish , 1965)。 

同样，大量的缺失数据则需要特殊的处理办法(例如 Little 
Rubin , 1990)。 

误差独立这一假设往往不切实际，这一情况常常发生在 
当观测是由时间点进行划分之时，这也产生了我们称之为 

“时间序列”的数据。用于探测和解决时间序列回归中误差 
自相关问题的方法，可以在 Omstein (1990) 和 Kmenta (1986) 

等书中找到。在这种情况下 ，一 个有用的初步诊断就是对最 
小二乘残差根据代表时间的观测索引绘制散点图。 






I 回归诊断筒介 


第1节 I 计算诊断量 



现在标准的统计软件(例如 SAS 、 SPSS 、 BMDP 和 Sys - 

tata ) 已经包含了许多本书讨论的诊断方法。哪怕某一个特 

殊的统计量或者步骤不是直接由这一软件提供，但常常也很 
容易计算或构造。例如在第4章中讨论到 DFFITS 和 COV - 

RATIO , 可以根据预测值和学生残差获得。同样，第4章与 
第9章中讨论的偏回归与构造变量散点图，可以通过构造某 
个适合的回归的残差而获得。即便是相对复杂的步骤，例如 
lowess ， 也可以通过在 SAS 里进行编程而获得（而事实上， 
lowess 的散点图平滑方法在 Systat 和其他软件中已经包括)。 

本书中几乎所有的计算都是使用 SAS 的 PC 版获得的， 
图形(仅有少数不是)则是由 SAS / GRAPH 获得。目前的统 
计软件对于应用诊断技术并不困难，并且标准软件的诊断功 
能也将不断进步。 
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第2节 I 延伸两读 


对于回归诊断和相关的主题，有大量的文献材料，例如 
“探索与图示数据分析”。幸运的是，现在有许多相关的文献 
采用了更易阅读的形式。 

在我看来， Cook 和 Weisberg (1982 b ) 的书对于了解评估 
影响力(作者并不喜欢这个词语）、奇异值和影响程度是最好 
的。这本书同样包括了对其他问题的讨论，例如非线性与对 
自变量和因变量的转换，但是并不包括对于共线性的处理。 
Cook 和 Weisb er g ( 1982 a ) 的文章则以较浓缩的模式讨论了 

本书中出现的主题。 

Chatterjee 和 Hadi (1988) 的书是一本关于处理强影响数 
据的全面且新近的著作，此外，这本书也讨论了非线性与非 
一 致误差方差等问题。这本书的杰出之处在于对不同测量 
影响程度的回归结果进行了比较，包括回归系数、系数方差 
以及共线性。 

Atkinson (1985) 的书同样是一本非常有价值的著作，这 

本书强调了作者对回归诊断的重要贡献，例如构造变量散点 
图和仿真的 方法 。 Belsley 等人 （1980) 的著作处理了强影响 

数据与共线性，主要介绍了作者在这些领域的工作。然而我 
认为，他们对共线性的处理都因主张在评估有问题的情况之 
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I 回归诊断简介 


前，不应该将截距处理掉这一主张而有所缺憾(参见 Belsley, 
1984) 0 


一些应用回归和线性模型的书对于诊断有较多的处理。 
例如 Chatterjee 和 Price(1977) ^ Daniel 和 Wood(1980) 以及 

Draper 和 Smith(1981) 对于共线性、变量选择和其他基于残 

差的诊断方法的讨论。此外还有 Weisberg( 1985)、 Fox 

(1984) 对于本书中的一些主题的处理。一般讨论计量的著作 

* - _ 

包含探测和矫正对回归模型假设的违背，但往往是以理论为 

主而非基于数据分析。对于这一方法的例子，参见 Kmenta 
(1986)。 


对于数据分析的图示和探测法，有许多优秀的著作，包 
括 Cleveland ( 1985 ) 对绘图的介绍 ， Velleman 和 Hoaglin 

(1981) 对探索数据分析的介绍。同样参见 Chambers 等人 
(1983) 的著作，其中包括与 Cleveland 类似的内容 ； Tukey 
(1977) 的著作包括对于探索数据的 分析； 由 Hoaglin, Mos- 


teller 和 Tukey 编辑的丛书（1983、 1985) 以及 Fox 和 Long 编 


辑的丛书 （1990) 也提供了有用的帮助。最后， Mosteller 和 


Tuk ey (1977) 作为对 Tukey(1977) 手册的特殊回归著作，从 
数据分析的视角研究了许多与回归相关的有趣内容。 



















































































































































































































































I s 归诊 新筒介 


附录 1 I 最小二乘拟合、联合置信 

区域和检驗 



利用矩阵形式，线性回归模型可以被写成 y = xp + e , 其中 
y 是一 ^ hnXl 维的由因变量值组成的向量。 X 是 TzXOfe + l ) 的 
回归因子矩阵，其中包括常量回归因子，即矩阵中全部为1的 
第一列是 a + l ) Xl 的回归参数向量， e 是 《 X 1 的误差向 
量。根据回归假设， e 〜 JV B (0, VI )，且与 X 独立。 

拟合模型为 y = Xb + e 。 为了获得 p 的最小二乘估计 b ， 
我们需要使得残差的平方和最小 ， ee = [ length ( e )] 2 。 因为 
e = y — y ,通过使》= Xb 成为 y 在由 X 的列获得的子空间 
上的垂直投影，使 e 的长度最小化。由于 X 、= 0, 我们有 
fXbzX ' y ， 这是矩阵形式的一般方程。需要注意的是，由 
于夕在 X 的子空间的列上，所以残差与拟合值是垂 直的: 

YjeSi = e ; y = 0。此外，由于 X 的第一列为1，则有 = 
l’e = 0。 

另一种等价的表 达为： 

e ’ e = (y —Xb)’（y —Xb) = y’y —2y’Xb+b’X’Xb 


求微分可获得 We / t 9 b =_2 X ' y +2 X ' Xb ， 通过求偏导可以使 
推导出一般方程的平方和函数最小化。如果 X ' X 是非奇异 
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的，即X的列中不存在共线性，则有 b = (x'xpty。 

V 

根据假设，我们有 EU ) = 0,且 £：(y) = X|3, E(b) = 
(X , X)^ 1 X / E(y), 则 b 为 p 的无偏估计。根据假设，我们有 
V(y) =V(e) = a 2 h 利用平方与乘积之和的矩阵 X'X 的 
对称性， 

V(b) = (X , X)~ 1 XV(y)[(X , X)- 1 X / ] / =<r 2 (X'X)- 1 

根据误差正态分布这一假设，则 有： 

b 〜 Up, cyHX'X)-】] 

则对回归系数的 100(1 —a) %的椭圆联合置信区 域为： 

(b - p)/(X'X) ( b-pxa + 1)/ F a ，奸 K 旷 ㈠ 

其中， / = ee/ (n — k—l) 是对 er 2 ， F Qt 吩, n -k-i 对于拥有是 + 
1 和 / z —々一 1 自由度的 F 的临界值。对于 p 个回归参数中的 
氏，我们有 100(1 — ct ) %的置信 区域： 

( bi - Pi )^ 1 (h - 沐 ） < ps 2 F at p , ^ [ A .1] 

在这里， V „ s ( x'x 广 1 相对于 b ! 的行与列的 />x P 子阵。 

通过置信区域的表达式，可以很容易地进行 F 检验。例 
如，检验风:卩 ， 则有： 

F _ Cb !-^) 7 VT/Cb.-D 

亡0 一 iJi 


在 H 。 假设下服从分布。对于 f = 0 , F 。 即为增量 
F 统计量。 



I 回归诊断筒介 


附录2 I 岭回归 




岭回归 （Hoerl &• Kennard ，1970 a 、1970 b ) 是在具有较 

强共线性的情况下获得更有效估计的一种方法。在这里，我 
解释岭回归的首要目的就是提醒大家，岭回归并不是对共线 
性的一种一般补救方法。 

通过重新度量 y 和 x 的列，使它们的均值为0,且具有单 
位长度，则求和即可得到相关系数。对于标准化回归系数的 
岭估 计为： 


b ； - ( R ^^ I )- 1 ^ - ( R ^ + zir 1 

其中 ， IT 是最小二乘估计量，是岭常量，通常 

由研究者自己选定。在这里， Rxz 是工之间的相关系数矩阵, 
G 是 X 与 J 之间相关系数的矢量。通过对每个 Ri 的对角值 
加上 z ， 则对角值(原来为 1) 比非对角值（回归因子间的相关 
系数)膨胀了一部分，从而提高了自变量相关系数矩阵的调 
节。当2 = 0时，最小二乘和岭估计量相等 ： bj = b # 。 

Hoerl 和 Ke_d 证明了 W 的偏差随着 z 的增加而增 
加，即在 0 时， V ( b : ) < W )，且 V ( b : ) 随着 z 的增大而 
减小，那么 z 永远存在一系列值使 MSE ( b ； ) < MSE(V ) 。 之 
前提到的均方误即抽样方差和偏差平方之和，则岭回归中的 
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技巧就是选择使偏差与方差之间权衡最优的 z 值。 

评断 z 值为多少可以使岭估计量优于最小二乘估计量， 
这取决于未知参数『，因此在实践中无法看出岭估计量具有 
何种理论上的优势。 


i 
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附录 3 I 预瀏值和预测矩晬 


最小二乘回归的拟合值是观测 y 的线性函数 


y =Xb = X ( X / X )- 1 X , y = Hy 




这里， H = X ( fX )_ 1 X / 就是预测矩阵。这样命名的原因 
在于它将 y 转换为预测矩阵是对称 （ h = H ') 和幂等 


( H 2 


H ) 的，这点很容易被证明。因此预测矩阵的对角 


值= ~叫做“预测值”，即 


尸1 作 I 

且有0 <心< 1。如果 X 包括了常数回归因子，则有1/« < 
心。最后，由于 H 是一个投影矩阵，将 y 正交地投影在有 X 的 

列组成的子空间上，则有=是+ 1，因此 (k + l )/ n Q 

细节参见 Hoaglin 和 Welsch (1978) 或者 Chatterjee 和 Hadi 
(1988: 第2章）。 



附录 4 I 最小二乘残差的分布 
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最小二乘的残 差为： 

e = y-y = (邱 + d — XCX'XT 1 X f (xp 十 e ) = (I-H)e 
因此有 

E(e) = (I-H)E(e) = (I-H)0 = 0 


与 


V (e) = (I-H)V(e)(I-Hy = <y 2 (I-H) 

因为 I — H 与 H —样是对称和幂等的。 I 一 H 不是对角矩阵， 
且其对角值往往是不相等的，因此即便误差服从独立同方差 
假设，残差之间仍彼此相关且具有不同的方差。 


* 
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I 回归诊断简介 


附录5 I JM 除诊断置 



令 b ( w 表示忽略了第£个观测的最小二乘回归系数的矩 
阵。则4=1>一1^, ) 表示了第 f 个观测对回归系数的影响，4 
可以由以下方程 算出： 


/ V 、 一 1 _■ ^ i 


( xxy ' x , 


— hi 


[ A . 2] 


a 


Cook 的 a 是对“假设 ” p = bh , 检验的 F 值： 
(b-b<_ 0 ) ， X'X(b-b(_ 0 ) (y-y ( _ 0 )’（9 — $ 


(-0 


(k + l ) S 2 


(k + l ) S 2 


因此，另一个对 A 的解释就是它测量了观测 f 对拟合值 i 
的汇总影响，这就是 Belsley 等人 （1980) 称他们的类似统计 
量为 “ DFFITS ” 的原因。利用方程 A . 2 可得： 


D t 


■ 

e 


h 




( 务 +i) a-h t ) 


n , 

x h 


k+l l~h 


这也是书中所给出的方程。 
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用矩阵的形式，拟合的多元回归模型为： 

y = 6 0 1 +61 Xj + ••• + AfcX * + e [ A * 3] 

其中， y 和 X , 是观测的 《 X 1 维向量， 1 是 nXl 维向量。在最 
小二乘回归中，是$ = 6 0 l + 6iXi +…是 y 在回归子空 
间的正交投影。令 y ( 1 ) 和 x u ) 分别表示 y 与 4 在由 1 和 
&，•••，&组成的子集的补集上的投影（即对^和:^根据其 
他* T 回归获得的残差向量）。根据投影的几何性质， y u> 在 
X (1) 上的投影为 h x u) ，且 y n> —卜 x n) = e ， 即从方程 A * 3中获 
得残差向量。 
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S 归诊醱简介 


附录7 I lowess 平滑散点图 


对局部权重散点图平滑法的简写为 lowess (Cleveland, 
1985)，它可以帮助对每个&获得对应的平滑拟合值 5 U 其中 

3 ^和 I 是散点图中的垂直与水平变量）。为了获得平滑值， 
lowess 步骤会针对每个观测 i 拟合数据的 n 条回归线，并突 
出接近 A 的工值。图 A * 1显示了 lowess 步骤。由于 lowess 

是需要精密计算的，因此需要一个特殊的电脑程序来运行， 
但是这个程序很容易写，且越来越普遍。 

选择一个平滑分 量:选 择一个数据中的分量0 < / <■ 1， 
使得每个对应于『= Ifni 的数据值的拟合都包含在内，其中 
中括号代表取其最接近的正数。通常/= 1/2或2/3较为适 
用。较大的/值将产生更平滑的结果。 

局部权重 回归： 对每个 A ，选择最接近: r 的 r 值，用 

表示，参见图 A * 1( a )。 对这个观测的窗口一 
半的宽度即为到最远的：^的距离，即 W ,_ =丨 lo 对窗 
口内 r 个观测中的每一个，计算权重 ztf =^[( x ；- x t )/ W ( ], 
其中叫 是三次方的权重函数。 




0 (M>1) 

(1-| Z | 3 ) 3 (| Z |<1) 
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注〆 a) 以 A 为中心建立一个窗口，以包含数据的/== 1/2,因此 r = [ 介]= 
7个点在窗口中。点 (x 5 , ：y 5 ) 用一个实心点表示。 （b) 三次方权重函数在 
窗口的界线处下降至0,且当时 x=x 5 时取得最大值。 （c) 对窗口内的七 
个观测进行局部回归，并使用由 （b) 中权重函数获得的权重。 x 5 处的 
lowess 拟合值$ 5 是用实心点表示的。每个观测都重复步骤 （a)、（b) 和 
(c) 以获得整个数据集的全部14个拟合值。 （d) 通过连接这些拟合值 
9 * $ 14 ， 就能获得 lowess 曲线(实线)。注意，这条曲线被拖向下方 

的观测(拟合点）。这条虚线显示了对奇异值賦予低权重是如何帮助获 

得更稳健的拟合(连接拟合值$:，•_■，的。 

资料来源:《基本数据绘图》（了心 o/ Graphing Data ) , W. S. Cleve¬ 
land, 版权 © 1985 贝尔电话实验室， Murray Hill, NJ。 获得了 
Wadsworth 和 Brooks/Cole 的高级图书和软件的同意， Pacific 
Grove, CA 93950。 

图 A*1 towess 是如何 运作的 

参见图羌 1(b) ，则拟合这个回归 方程： 


在这里4仅代表三次方函数的自变数 ， BP _ x ,)/ W ,。 因 

此当 < 接近窗口的界线(且最大的为 X ,)时，减小至0。 
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(0 丄 / (*) 丄 ( i ) 

% A 十 biX 】 十 6 } 

将使最小（参见附录8的权重最小二乘回归）。 

；=1 

计算拟合值= a , + 6, X , 。注意，对每个= 1，…，？2都有 
一个拟合方程，且都有一个拟合的值。 

对奇异值赋予低权 重:计 算残差 e , = ^ A 。 计算能够 
低估具有较大残差观测的稳健权重： S , = WM /6 M ), 其中 
M 是残差 k | 绝对值的中位数，％是二次方权重 函薮： 


'WbCz) 


rO ( z |^1) 

1(1 — 之 2 ) 2 (I z\<l) 


稳健局部权重 回归： 重复局部权重回归，但是在单独回 
归中，使用混合权重得岀新的拟合值乂。 


t 
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附录8 I 权重最小二乘估计 



假设回归模 型为: 


: y .- = 氏 + (3l 工 n + ^lOCzi + …+ + £,■ 

e, 〜 NID(0, cj 2 ) 


[A. 4] 


误差的标准差与 A 是成比例的，<7, = or 1( 。 在方程久4两边 
都除以可以 获得： 


工 li 




ft 


X2A 

Xu 


t •警 




工 ki 

Xu 



IK 5] 


且由于 = a,-/a, 则最后一项变为 e ;= 叫/因为 V( ei ') = 
^V(e f )/^ = a 2 是恒定的，所以对方程人 5 的转换可以通过 
最小二乘回归获得，包括对 y/A 根据一个恒定的回归因子 
1/xn 和对*^/办根据:^ /知进行的回归，这样可以获得对 P 
的估计和它们的标准误。这个步骤与将权重的平方和 

YJM 最小化是等价的，这可以得到 方程久 4的最大似然 

估计。只要误差方差是一个一致的百分常量 v(e, ) = a 2 ^, 
这种方法就是有效的(参见 Weisberg， 1985:第4章）。 
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附录 9 I 矫正异方差的 


JK 小二乘标准误 


回顾附录1，最小二乘估计量的协方差矩 阵为： 

V(b) = (X f X) ^ XV(y)X(X f X) _1 [A. 6] 

在误差方差一致性的假设下，有 V ( y ) = a 2 h 方程人6将其 
简化为一般的形式， v(b)(x'xr 1 。 如果误差是异方差 

但是独立的，则 VXy ) =乏]= diag (( j 〖， …，乂），且 

V ( b ) = ( X ^-' X ^ XCX ' X ) -1 

因为 £ U ,) =0,第 i 个误差方差位$ =£：(<)，这表明了估 
计 V ( b ) 的可 能性： 

A 

V(b) = (txn'xixctx)— 1 [A. 7] 

其中，芝] = diag ( e - , •••, ^), e , 是观测 Z 的最小二乘残差。 

White ( 1980) 证明了 方程久 7是 V ( b ) 的一致估计量。 

例如，对 Omstein 的连锁董事会数据， White 的方法获得 
的估计标准误与一般方程获得的结果基本类似(在表 6. 1中 
给出）。事实上，对大部分系数而言，矫正的误差方差比未矫 
正的要小一些。但是，公司资产平方差的系数的矫正误差方 
差为 0 . 028, 比未矫正的误差方差 0 . 019 大了许多。 


i 
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附录 10 


当误差方差不一致时最小二 
乘估计的有效性和可倌性 


不一致误差方差对最小二乘估计有效性的影响和对最 
小二乘推论可信性的影响基于许多因素，包括样本规模 、 y 
的变异程度、:*：值的模式和误差方差与 x 之间的关系。因此， 
我们无法获得一个普遍适用的结论，但是下面的简单例子可 
以说明很多问题且支持本书所给的建议。 

假设: y t = (3 o + pi » 其中 & 〜 NID (0 ， a ?) 且久 = 咏 

(与附录 8 中的一样）。则 OLS 的估计量 h 没有 WLS 估计 
量^有效，因为后者的情况是 ft 的最大有效无偏估计量。 

抽样方差匕与 I 的公式很好推导(如 Kmenta ，1986: 第 
8章)。 OLS 估计量的有效性与 WLS 最佳的估计量有效性 
的比较可以通过^ ) 得出，而 OLS 的相对精确度 

为这个比例的平方根，即 SE ( g ! )/ SE %) 。 

现在，假设 x 是在区间 [: c 。， or 。] 上一致分布的，其中 
心>0且^>0，则《是工的最大值与最小值的比例(因此也 
就是最大与最小的 <7,)。 OLS 估计量的相对精度随着样本规 
模的增大而逐渐变得稳定，且当 a = 2时超过90%，《 = 3时 
超过85%，即便 n 很小，只有20。对10,使用 OLS 的代 
价则较大，但是当20时，相对精度仍然超过65%。 
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基于最小二乘估计的统计推断有效性，对一般模式 
的不一致误差方差并不十分敏感。这里，我们需要比较 
一般估计量7(仏）的期望与真正的抽样方差匕。同样， 
£[ V ( M ] 的公式很容易推导出来（参见 Kmenta , 1986: 

第8章 h 的平方差显示了相对标准 

误项的结果。例如，针对20的情况，当比例为98% 

时 ， a = 2;当比例为97%时 ， a = 3;当比例为93%时， 

—— _ 

a — 10 0 
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